ChatPaper.aiChatPaper

MesaTask : Vers une génération de scènes de table pilotée par des tâches via un raisonnement spatial en 3D

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

September 26, 2025
papers.authors: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang
cs.AI

papers.abstract

La capacité des robots à interpréter les instructions humaines et à exécuter des tâches de manipulation nécessite la disponibilité de scènes de table pertinentes pour l'entraînement. Cependant, les méthodes traditionnelles de création de ces scènes reposent sur une conception manuelle chronophage de la disposition ou sur des dispositions purement aléatoires, qui sont limitées en termes de plausibilité ou d'alignement avec les tâches. Dans cet article, nous formulons une nouvelle tâche, à savoir la génération de scènes de table orientées vers une tâche, qui pose des défis importants en raison de l'écart substantiel entre les instructions de tâche de haut niveau et les scènes de table. Pour soutenir la recherche sur une telle tâche complexe, nous introduisons MesaTask-10K, un ensemble de données à grande échelle comprenant environ 10 700 scènes de table synthétiques avec des dispositions manuellement conçues qui garantissent des dispositions réalistes et des relations inter-objets complexes. Pour combler l'écart entre les tâches et les scènes, nous proposons une Chaîne de Raisonnement Spatial qui décompose le processus de génération en inférence d'objets, raisonnement sur les interrelations spatiales et construction de graphes de scène pour la disposition 3D finale. Nous présentons MesaTask, un framework basé sur LLM qui utilise cette chaîne de raisonnement et est en outre amélioré avec des algorithmes DPO pour générer des scènes de table physiquement plausibles qui s'alignent bien avec les descriptions de tâches données. Des expériences exhaustives démontrent la performance supérieure de MesaTask par rapport aux méthodes de référence dans la génération de scènes de table conformes aux tâches avec des dispositions réalistes. La page du projet est disponible à l'adresse https://mesatask.github.io/.
English
The ability of robots to interpret human instructions and execute manipulation tasks necessitates the availability of task-relevant tabletop scenes for training. However, traditional methods for creating these scenes rely on time-consuming manual layout design or purely randomized layouts, which are limited in terms of plausibility or alignment with the tasks. In this paper, we formulate a novel task, namely task-oriented tabletop scene generation, which poses significant challenges due to the substantial gap between high-level task instructions and the tabletop scenes. To support research on such a challenging task, we introduce MesaTask-10K, a large-scale dataset comprising approximately 10,700 synthetic tabletop scenes with manually crafted layouts that ensure realistic layouts and intricate inter-object relations. To bridge the gap between tasks and scenes, we propose a Spatial Reasoning Chain that decomposes the generation process into object inference, spatial interrelation reasoning, and scene graph construction for the final 3D layout. We present MesaTask, an LLM-based framework that utilizes this reasoning chain and is further enhanced with DPO algorithms to generate physically plausible tabletop scenes that align well with given task descriptions. Exhaustive experiments demonstrate the superior performance of MesaTask compared to baselines in generating task-conforming tabletop scenes with realistic layouts. Project page is at https://mesatask.github.io/
PDF283September 29, 2025