ChatPaper.aiChatPaper

MesaTask: Naar taakgestuurde generatie van tafelopstellingen via 3D-ruimtelijk redeneren

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

September 26, 2025
Auteurs: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang
cs.AI

Samenvatting

Het vermogen van robots om menselijke instructies te interpreteren en manipulatie taken uit te voeren vereist de beschikbaarheid van tafelopstellingen die relevant zijn voor de taak om op te trainen. Traditionele methoden voor het creëren van deze opstellingen zijn echter gebaseerd op tijdrovend handmatig ontwerp of puur willekeurige opstellingen, die beperkt zijn in termen van geloofwaardigheid of afstemming op de taken. In dit artikel formuleren we een nieuwe taak, namelijk taakgerichte tafelopstelling generatie, wat aanzienlijke uitdagingen met zich meebrengt vanwege de grote kloof tussen hoogwaardige taakinstructies en de tafelopstellingen. Om onderzoek naar zo'n uitdagende taak te ondersteunen, introduceren we MesaTask-10K, een grootschalige dataset bestaande uit ongeveer 10.700 synthetische tafelopstellingen met handmatig ontworpen lay-outs die realistische opstellingen en ingewikkelde inter-object relaties garanderen. Om de kloof tussen taken en opstellingen te overbruggen, stellen we een Spatial Reasoning Chain voor die het generatieproces opdeelt in object inferentie, ruimtelijke interrelatie redenering en scènegrafiek constructie voor de uiteindelijke 3D-opstelling. We presenteren MesaTask, een LLM-gebaseerd framework dat gebruik maakt van deze redeneringsketen en verder is verbeterd met DPO-algoritmen om fysiek plausibele tafelopstellingen te genereren die goed aansluiten bij gegeven taakbeschrijvingen. Uitgebreide experimenten tonen de superieure prestaties van MesaTask aan in vergelijking met baseline methoden in het genereren van taakconforme tafelopstellingen met realistische lay-outs. De projectpagina is te vinden op https://mesatask.github.io/.
English
The ability of robots to interpret human instructions and execute manipulation tasks necessitates the availability of task-relevant tabletop scenes for training. However, traditional methods for creating these scenes rely on time-consuming manual layout design or purely randomized layouts, which are limited in terms of plausibility or alignment with the tasks. In this paper, we formulate a novel task, namely task-oriented tabletop scene generation, which poses significant challenges due to the substantial gap between high-level task instructions and the tabletop scenes. To support research on such a challenging task, we introduce MesaTask-10K, a large-scale dataset comprising approximately 10,700 synthetic tabletop scenes with manually crafted layouts that ensure realistic layouts and intricate inter-object relations. To bridge the gap between tasks and scenes, we propose a Spatial Reasoning Chain that decomposes the generation process into object inference, spatial interrelation reasoning, and scene graph construction for the final 3D layout. We present MesaTask, an LLM-based framework that utilizes this reasoning chain and is further enhanced with DPO algorithms to generate physically plausible tabletop scenes that align well with given task descriptions. Exhaustive experiments demonstrate the superior performance of MesaTask compared to baselines in generating task-conforming tabletop scenes with realistic layouts. Project page is at https://mesatask.github.io/
PDF313September 29, 2025