MesaTask: Hacia la Generación de Escenas de Mesas Basada en Tareas mediante Razonamiento Espacial 3D
MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning
September 26, 2025
Autores: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang
cs.AI
Resumen
La capacidad de los robots para interpretar instrucciones humanas y ejecutar tareas de manipulación requiere la disponibilidad de escenas de mesas relevantes para el entrenamiento. Sin embargo, los métodos tradicionales para crear estas escenas dependen de diseños de disposición manual que consumen mucho tiempo o de disposiciones puramente aleatorias, las cuales están limitadas en términos de plausibilidad o alineación con las tareas. En este artículo, formulamos una nueva tarea, denominada generación de escenas de mesas orientadas a tareas, que plantea desafíos significativos debido a la brecha sustancial entre las instrucciones de tareas de alto nivel y las escenas de mesas. Para apoyar la investigación en una tarea tan desafiante, presentamos MesaTask-10K, un conjunto de datos a gran escala que comprende aproximadamente 10,700 escenas sintéticas de mesas con diseños manualmente elaborados que garantizan disposiciones realistas y relaciones intrincadas entre objetos. Para cerrar la brecha entre las tareas y las escenas, proponemos una Cadena de Razonamiento Espacial que descompone el proceso de generación en inferencia de objetos, razonamiento de interrelaciones espaciales y construcción de un grafo de escenas para el diseño 3D final. Presentamos MesaTask, un marco basado en LLM que utiliza esta cadena de razonamiento y que se mejora aún más con algoritmos DPO para generar escenas de mesas físicamente plausibles que se alinean bien con las descripciones de tareas dadas. Experimentos exhaustivos demuestran el rendimiento superior de MesaTask en comparación con los métodos de referencia en la generación de escenas de mesas conformes a la tarea con diseños realistas. La página del proyecto se encuentra en https://mesatask.github.io/.
English
The ability of robots to interpret human instructions and execute
manipulation tasks necessitates the availability of task-relevant tabletop
scenes for training. However, traditional methods for creating these scenes
rely on time-consuming manual layout design or purely randomized layouts, which
are limited in terms of plausibility or alignment with the tasks. In this
paper, we formulate a novel task, namely task-oriented tabletop scene
generation, which poses significant challenges due to the substantial gap
between high-level task instructions and the tabletop scenes. To support
research on such a challenging task, we introduce MesaTask-10K, a large-scale
dataset comprising approximately 10,700 synthetic tabletop scenes with manually
crafted layouts that ensure realistic layouts and intricate inter-object
relations. To bridge the gap between tasks and scenes, we propose a Spatial
Reasoning Chain that decomposes the generation process into object inference,
spatial interrelation reasoning, and scene graph construction for the final 3D
layout. We present MesaTask, an LLM-based framework that utilizes this
reasoning chain and is further enhanced with DPO algorithms to generate
physically plausible tabletop scenes that align well with given task
descriptions. Exhaustive experiments demonstrate the superior performance of
MesaTask compared to baselines in generating task-conforming tabletop scenes
with realistic layouts. Project page is at https://mesatask.github.io/