SceneSmith: シミュレーション対応の屋内シーンを生成するエージェントシステム
SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes
February 9, 2026
著者: Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake
cs.AI
要旨
シミュレーションは家庭用ロボットの大規模訓練・評価における重要なツールとなっているが、既存の環境は実世界の室内空間が持つ多様性や物理的複雑性を十分に再現できていない。現在のシーン合成手法では、家具がまばらに配置された室内が生成される傾向にあり、ロボット操作に不可欠な「密集した雑多さ」や「関節構造を持つ家具」、さらに物理特性が欠如している。本論文では、自然言語プロンプトからシミュレーション対応の室内環境を生成する階層的なエージェントフレームワーク「SceneSmith」を提案する。SceneSmithは、建築レイアウト、家具配置、小物の追加という段階を経てシーンを構築し、各段階はデザイナー、批評家、オーケストレーターというVLMエージェント群の相互作用として実装される。本フレームワークは、静的オブジェクトのためのtext-to-3D合成に基づくアセット生成、関節オブジェクトのためのデータセット検索、物理特性推定を緊密に統合している。SceneSmithは従来手法に比べて3~6倍のオブジェクトを生成し、オブジェクト間の衝突率は2%未満、物理シミュレーション下でのオブジェクト安定率は96%に達する。205名の参加者によるユーザスタディでは、ベースラインと比較して、平均リアリズムで92%、平均プロンプト忠実度で91%の勝率を達成した。さらに、これらの環境がロボットポリシー自動評価のエンドツーエンドパイプラインに利用可能であることも実証する。
English
Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.