SceneSmith : Génération agentique de scènes intérieures prêtes pour la simulation
SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes
February 9, 2026
papers.authors: Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake
cs.AI
papers.abstract
La simulation est devenue un outil essentiel pour la formation et l'évaluation des robots domestiques à grande échelle. Pourtant, les environnements existants ne parviennent pas à capturer la diversité et la complexité physique des espaces intérieurs réels. Les méthodes actuelles de synthèse de scènes produisent des pièces meublées de manière éparse, dépourvues de l'encombrement dense, du mobilier articulé et des propriétés physiques essentielles à la manipulation robotique. Nous présentons SceneSmith, un cadre agentiel hiérarchique qui génère des environnements intérieurs prêts pour la simulation à partir d'invites en langage naturel. SceneSmith construit des scènes par étapes successives – de la conception architecturale au placement des meubles, jusqu'au peuplement des petits objets – chaque étape étant mise en œuvre via une interaction entre des agents de modèles de vision par calculateur (VLM) : un concepteur, un critique et un orchestrateur. Le cadre intègre étroitement la génération d'actifs via la synthèse texte-3D pour les objets statiques, la récupération de jeux de données pour les objets articulés et l'estimation des propriétés physiques. SceneSmith génère 3 à 6 fois plus d'objets que les méthodes antérieures, avec moins de 2 % de collisions entre objets et 96 % des objets restant stables sous simulation physique. Dans une étude utilisateur menée auprès de 205 participants, il obtient des taux de préférence moyens de 92 % pour le réalisme et de 91 % pour la fidélité à l'invite par rapport aux méthodes de référence. Nous démontrons en outre que ces environnements peuvent être utilisés dans un pipeline de bout en bout pour l'évaluation automatique des politiques robotiques.
English
Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.