ChatPaper.aiChatPaper

시뮬레이션 준비 실내 장면의 에이전트 기반 생성

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

February 9, 2026
저자: Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake
cs.AI

초록

시뮬레이션은 홈 로봇의 대규모 훈련 및 평가를 위한 핵심 도구로 자리 잡았으나, 기존 환경들은 실제 실내 공간의 다양성과 물리적 복잡성을 제대로 반영하지 못하고 있습니다. 현재의 장면 합성 방법은 드문드문 배치된 가구만 있는 방을 생성하여 로봇 매니픽레이션에 필수적인 빽빽한 잡동사니, 관절형 가구 및 물리적 속성이 부족합니다. 본 연구에서는 자연어 프롬프트로부터 시뮬레이션에 바로 사용 가능한 실내 환경을 생성하는 계층적 에이전트 프레임워크인 SceneSmith를 소개합니다. SceneSmith는 건축적 레이아웃에서 가구 배치, 소형 객체 배치에 이르는 연속적인 단계를 통해 장면을 구성하며, 각 단계는 디자이너, 비평가, 오케스트레이터라는 VLM 에이전트 간의 상호작용으로 구현됩니다. 본 프레임워크는 정적 객체에 대해서는 텍스트-3D 합성을 통한 에셋 생성, 관절형 객체에 대해서는 데이터셋 검색, 그리고 물리적 속성 추정을 긴밀하게 통합합니다. SceneSmith는 기존 방법보다 3-6배 많은 객체를 생성하며, 객체 간 충돌률은 2% 미만, 물리 시뮬레이션 하에서 안정적인 객체 비율은 96%에 달합니다. 205명의 참가자를 대상으로 한 사용자 연구에서 기준 방법 대비 평균 92%의 사실성 승률과 91%의 프롬프트 정확도 승률을 달성했습니다. 또한 이러한 환경들이 자동 로봇 정책 평가를 위한 종단간 파이프라인에 활용될 수 있음을 보여줍니다.
English
Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.
PDF01February 12, 2026