ChatPaper.aiChatPaper

MesaTask: Rumo à Geração de Cenários de Mesa Orientada a Tarefas por meio de Raciocínio Espacial 3D

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

September 26, 2025
Autores: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang
cs.AI

Resumo

A capacidade dos robôs de interpretar instruções humanas e executar tarefas de manipulação exige a disponibilidade de cenas de mesa relevantes para o treinamento. No entanto, os métodos tradicionais para criar essas cenas dependem de designs de layout manuais demorados ou de layouts puramente aleatórios, que são limitados em termos de plausibilidade ou alinhamento com as tarefas. Neste artigo, formulamos uma nova tarefa, nomeadamente a geração de cenas de mesa orientadas por tarefas, que apresenta desafios significativos devido à grande lacuna entre as instruções de tarefa de alto nível e as cenas de mesa. Para apoiar a pesquisa sobre uma tarefa tão desafiadora, introduzimos o MesaTask-10K, um conjunto de dados em larga escala composto por aproximadamente 10.700 cenas de mesa sintéticas com layouts manualmente elaborados que garantem layouts realistas e relações intrincadas entre objetos. Para preencher a lacuna entre tarefas e cenas, propomos uma Cadeia de Raciocínio Espacial que decompõe o processo de geração em inferência de objetos, raciocínio de inter-relação espacial e construção de grafo de cena para o layout 3D final. Apresentamos o MesaTask, um framework baseado em LLM que utiliza essa cadeia de raciocínio e é aprimorado com algoritmos DPO para gerar cenas de mesa fisicamente plausíveis que se alinham bem com as descrições de tarefas fornecidas. Experimentos exaustivos demonstram o desempenho superior do MesaTask em comparação com as linhas de base na geração de cenas de mesa conformes às tarefas com layouts realistas. A página do projeto está em https://mesatask.github.io/
English
The ability of robots to interpret human instructions and execute manipulation tasks necessitates the availability of task-relevant tabletop scenes for training. However, traditional methods for creating these scenes rely on time-consuming manual layout design or purely randomized layouts, which are limited in terms of plausibility or alignment with the tasks. In this paper, we formulate a novel task, namely task-oriented tabletop scene generation, which poses significant challenges due to the substantial gap between high-level task instructions and the tabletop scenes. To support research on such a challenging task, we introduce MesaTask-10K, a large-scale dataset comprising approximately 10,700 synthetic tabletop scenes with manually crafted layouts that ensure realistic layouts and intricate inter-object relations. To bridge the gap between tasks and scenes, we propose a Spatial Reasoning Chain that decomposes the generation process into object inference, spatial interrelation reasoning, and scene graph construction for the final 3D layout. We present MesaTask, an LLM-based framework that utilizes this reasoning chain and is further enhanced with DPO algorithms to generate physically plausible tabletop scenes that align well with given task descriptions. Exhaustive experiments demonstrate the superior performance of MesaTask compared to baselines in generating task-conforming tabletop scenes with realistic layouts. Project page is at https://mesatask.github.io/
PDF313September 29, 2025