MesaTask: 3D 공간 추론을 통한 작업 기반 테이블탑 장면 생성 연구
MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning
September 26, 2025
저자: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang
cs.AI
초록
로봇이 인간의 지시를 해석하고 조작 작업을 수행하기 위해서는 작업과 관련된 테이블탑 장면을 훈련에 활용할 수 있어야 한다. 그러나 이러한 장면을 생성하는 전통적인 방법은 시간이 많이 소요되는 수동 레이아웃 설계나 순수 무작위 레이아웃에 의존하며, 이는 현실성이나 작업과의 일관성 측면에서 한계가 있다. 본 논문에서는 고차원적인 작업 지시와 테이블탑 장면 간의 상당한 격차로 인해 상당한 도전 과제로 여겨지는 작업 지향적 테이블탑 장면 생성이라는 새로운 과제를 제안한다. 이러한 도전적인 과제에 대한 연구를 지원하기 위해, 우리는 MesaTask-10K라는 대규모 데이터셋을 소개한다. 이 데이터셋은 약 10,700개의 합성 테이블탑 장면으로 구성되어 있으며, 현실적인 레이아웃과 복잡한 객체 간 관계를 보장하기 위해 수작업으로 제작된 레이아웃을 포함한다. 작업과 장면 간의 격차를 해소하기 위해, 우리는 공간 추론 체인(Spatial Reasoning Chain)을 제안한다. 이 체인은 객체 추론, 공간적 상호관계 추론, 그리고 최종 3D 레이아웃을 위한 장면 그래프 구축으로 생성 과정을 분해한다. 우리는 이 추론 체인을 활용하고 DPO 알고리즘으로 더욱 강화된 MesaTask라는 LLM 기반 프레임워크를 제시한다. 이 프레임워크는 주어진 작업 설명과 잘 일치하는 물리적으로 타당한 테이블탑 장면을 생성한다. 철저한 실험을 통해 MesaTask가 현실적인 레이아웃을 가진 작업에 부합하는 테이블탑 장면을 생성하는 데 있어 기준 모델들보다 우수한 성능을 보임을 입증한다. 프로젝트 페이지는 https://mesatask.github.io/에서 확인할 수 있다.
English
The ability of robots to interpret human instructions and execute
manipulation tasks necessitates the availability of task-relevant tabletop
scenes for training. However, traditional methods for creating these scenes
rely on time-consuming manual layout design or purely randomized layouts, which
are limited in terms of plausibility or alignment with the tasks. In this
paper, we formulate a novel task, namely task-oriented tabletop scene
generation, which poses significant challenges due to the substantial gap
between high-level task instructions and the tabletop scenes. To support
research on such a challenging task, we introduce MesaTask-10K, a large-scale
dataset comprising approximately 10,700 synthetic tabletop scenes with manually
crafted layouts that ensure realistic layouts and intricate inter-object
relations. To bridge the gap between tasks and scenes, we propose a Spatial
Reasoning Chain that decomposes the generation process into object inference,
spatial interrelation reasoning, and scene graph construction for the final 3D
layout. We present MesaTask, an LLM-based framework that utilizes this
reasoning chain and is further enhanced with DPO algorithms to generate
physically plausible tabletop scenes that align well with given task
descriptions. Exhaustive experiments demonstrate the superior performance of
MesaTask compared to baselines in generating task-conforming tabletop scenes
with realistic layouts. Project page is at https://mesatask.github.io/