SceneSmith: Generazione Agente di Scene Interiori Pronte per la Simulazione

Abstract

La simulazione è diventata uno strumento chiave per addestrare e valutare i robot domestici su larga scala, eppure gli ambienti esistenti non riescono a catturare la diversità e la complessità fisica degli spazi interni reali. I metodi attuali di sintesi di scene producono stanze scarsamente arredate che mancano del disordine denso, dei mobili articolati e delle proprietà fisiche essenziali per la manipolazione robotica. Introduciamo SceneSmith, un framework agente gerarchico che genera ambienti interni pronti per la simulazione a partire da prompt in linguaggio naturale. SceneSmith costruisce le scene attraverso stadi successivi – dal layout architettonico al posizionamento dei mobili fino al popolamento di piccoli oggetti – ciascuno implementato come un'interazione tra agenti VLM: progettista, critico e orchestratore. Il framework integra strettamente la generazione di asset attraverso la sintesi testo-3D per oggetti statici, il recupero da dataset per oggetti articolati e la stima delle proprietà fisiche. SceneSmith genera da 3 a 6 volte più oggetti rispetto ai metodi precedenti, con <2% di collisioni tra oggetti e il 96% degli oggetti che rimane stabile sotto simulazione fisica. In uno studio utente con 205 partecipanti, raggiunge tassi di vittoria contro i baseline del 92% per il realismo medio e del 91% per la fedeltà media al prompt. Dimostriamo inoltre che questi ambienti possono essere utilizzati in una pipeline end-to-end per la valutazione automatica delle policy robotiche.

English

Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.

SceneSmith: Generazione Agente di Scene Interiori Pronte per la Simulazione

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Abstract

Support