MesaTask: Hacia la Generación de Escenas de Mesas Basada en Tareas mediante Razonamiento Espacial 3D

Resumen

La capacidad de los robots para interpretar instrucciones humanas y ejecutar tareas de manipulación requiere la disponibilidad de escenas de mesas relevantes para el entrenamiento. Sin embargo, los métodos tradicionales para crear estas escenas dependen de diseños de disposición manual que consumen mucho tiempo o de disposiciones puramente aleatorias, las cuales están limitadas en términos de plausibilidad o alineación con las tareas. En este artículo, formulamos una nueva tarea, denominada generación de escenas de mesas orientadas a tareas, que plantea desafíos significativos debido a la brecha sustancial entre las instrucciones de tareas de alto nivel y las escenas de mesas. Para apoyar la investigación en una tarea tan desafiante, presentamos MesaTask-10K, un conjunto de datos a gran escala que comprende aproximadamente 10,700 escenas sintéticas de mesas con diseños manualmente elaborados que garantizan disposiciones realistas y relaciones intrincadas entre objetos. Para cerrar la brecha entre las tareas y las escenas, proponemos una Cadena de Razonamiento Espacial que descompone el proceso de generación en inferencia de objetos, razonamiento de interrelaciones espaciales y construcción de un grafo de escenas para el diseño 3D final. Presentamos MesaTask, un marco basado en LLM que utiliza esta cadena de razonamiento y que se mejora aún más con algoritmos DPO para generar escenas de mesas físicamente plausibles que se alinean bien con las descripciones de tareas dadas. Experimentos exhaustivos demuestran el rendimiento superior de MesaTask en comparación con los métodos de referencia en la generación de escenas de mesas conformes a la tarea con diseños realistas. La página del proyecto se encuentra en https://mesatask.github.io/.

English

The ability of robots to interpret human instructions and execute manipulation tasks necessitates the availability of task-relevant tabletop scenes for training. However, traditional methods for creating these scenes rely on time-consuming manual layout design or purely randomized layouts, which are limited in terms of plausibility or alignment with the tasks. In this paper, we formulate a novel task, namely task-oriented tabletop scene generation, which poses significant challenges due to the substantial gap between high-level task instructions and the tabletop scenes. To support research on such a challenging task, we introduce MesaTask-10K, a large-scale dataset comprising approximately 10,700 synthetic tabletop scenes with manually crafted layouts that ensure realistic layouts and intricate inter-object relations. To bridge the gap between tasks and scenes, we propose a Spatial Reasoning Chain that decomposes the generation process into object inference, spatial interrelation reasoning, and scene graph construction for the final 3D layout. We present MesaTask, an LLM-based framework that utilizes this reasoning chain and is further enhanced with DPO algorithms to generate physically plausible tabletop scenes that align well with given task descriptions. Exhaustive experiments demonstrate the superior performance of MesaTask compared to baselines in generating task-conforming tabletop scenes with realistic layouts. Project page is at https://mesatask.github.io/

MesaTask: Hacia la Generación de Escenas de Mesas Basada en Tareas mediante Razonamiento Espacial 3D

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

Resumen

Support