SceneSmith: Agentische Erzeugung simulationsfähiger Innenraumszenen
SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes
February 9, 2026
papers.authors: Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake
cs.AI
papers.abstract
Simulation ist zu einem zentralen Werkzeug für das Training und die Bewertung von Haushaltsrobotern im großen Maßstab geworden, doch bestehende Umgebungen erfassen nicht die Vielfalt und physikalische Komplexität realer Innenräume. Aktuelle Methoden zur Szeneriesynthese erzeugen spärlich möblierte Räume, denen das dichte Gedränge an Gegenständen, artikulierte Möbel und die für die robotische Manipulation wesentlichen physikalischen Eigenschaften fehlen. Wir stellen SceneSmith vor, ein hierarchisches, agentenbasiertes Framework, das simulationsfertige Innenraumumgebungen aus natürlichen Sprachaufforderungen generiert. SceneSmith konstruiert Szenen durch aufeinanderfolgende Stufen – vom architektonischen Grundriss über die Möblierung bis hin zur Platzierung kleiner Objekte –, die jeweils als Interaktion zwischen VLM-Agenten implementiert sind: Designer, Kritiker und Orchestrator. Das Framework integriert eng die Asset-Generierung durch Text-zu-3D-Synthese für statische Objekte, den Abruf aus Datensätzen für artikulierte Objekte und die Schätzung physikalischer Eigenschaften. SceneSmith generiert 3- bis 6-mal mehr Objekte als bisherige Methoden, mit <2% Objektkollisionen und 96% der Objekte, die unter Physiksimulation stabil bleiben. In einer Nutzerstudie mit 205 Teilnehmern erzielt es durchschnittliche Realismus- und Treue-zur-Aufforderung-Win-Raten von 92% bzw. 91% im Vergleich zu Baseline-Verfahren. Wir zeigen weiterhin, dass diese Umgebungen in einer End-to-End-Pipeline zur automatischen Bewertung von Robotik-Policies eingesetzt werden können.
English
Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.