ChatPaper.aiChatPaper

MesaTask: Генерация настольных сцен на основе задач с использованием 3D-пространственного анализа

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

September 26, 2025
Авторы: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang
cs.AI

Аннотация

Способность роботов интерпретировать человеческие инструкции и выполнять задачи манипуляции требует наличия соответствующих сцен на столе для обучения. Однако традиционные методы создания таких сцен основываются на трудоемком ручном проектировании компоновки или полностью случайных расположениях, которые ограничены с точки зрения правдоподобия или соответствия задачам. В данной работе мы формулируем новую задачу, а именно генерацию сцен на столе, ориентированных на задачи, что представляет значительные трудности из-за существенного разрыва между высокоуровневыми инструкциями и сценами на столе. Для поддержки исследований в этой сложной области мы представляем MesaTask-10K, крупномасштабный набор данных, содержащий около 10 700 синтетических сцен на столе с тщательно разработанными компоновками, которые обеспечивают реалистичные расположения и сложные взаимосвязи между объектами. Чтобы преодолеть разрыв между задачами и сценами, мы предлагаем Spatial Reasoning Chain, которая разбивает процесс генерации на вывод объектов, рассуждение о пространственных взаимосвязях и построение графа сцены для окончательной 3D-компоновки. Мы представляем MesaTask, основанную на LLM структуру, которая использует эту цепочку рассуждений и дополнительно улучшена с помощью алгоритмов DPO для генерации физически правдоподобных сцен на столе, хорошо соответствующих заданным описаниям задач. Многочисленные эксперименты демонстрируют превосходство MesaTask по сравнению с базовыми методами в генерации сцен на столе, соответствующих задачам, с реалистичными компоновками. Страница проекта доступна по адресу https://mesatask.github.io/
English
The ability of robots to interpret human instructions and execute manipulation tasks necessitates the availability of task-relevant tabletop scenes for training. However, traditional methods for creating these scenes rely on time-consuming manual layout design or purely randomized layouts, which are limited in terms of plausibility or alignment with the tasks. In this paper, we formulate a novel task, namely task-oriented tabletop scene generation, which poses significant challenges due to the substantial gap between high-level task instructions and the tabletop scenes. To support research on such a challenging task, we introduce MesaTask-10K, a large-scale dataset comprising approximately 10,700 synthetic tabletop scenes with manually crafted layouts that ensure realistic layouts and intricate inter-object relations. To bridge the gap between tasks and scenes, we propose a Spatial Reasoning Chain that decomposes the generation process into object inference, spatial interrelation reasoning, and scene graph construction for the final 3D layout. We present MesaTask, an LLM-based framework that utilizes this reasoning chain and is further enhanced with DPO algorithms to generate physically plausible tabletop scenes that align well with given task descriptions. Exhaustive experiments demonstrate the superior performance of MesaTask compared to baselines in generating task-conforming tabletop scenes with realistic layouts. Project page is at https://mesatask.github.io/
PDF283September 29, 2025