SceneSmith: Agentische Generatie van Simulatieklare Binnenruimtes

Samenvatting

Simulatie is een essentieel instrument geworden voor het trainen en evalueren van huishoudrobots op grote schaal, maar bestaande omgevingen slagen er niet in de diversiteit en fysieke complexiteit van echte binnenruimtes weer te geven. Huidige methoden voor scènesynthese produceren karig ingerichte kamers die het dichte rommel, gearticuleerd meubilair en de fysieke eigenschappen missen die essentieel zijn voor robotmanipulatie. Wij introduceren SceneSmith, een hiërarchisch agent-gebaseerd raamwerk dat simulatieklare binnenomgevingen genereert op basis van natuurlijke taalprompts. SceneSmith bouwt scènes op via opeenvolgende fasen – van architectonische indeling tot meubelplaatsing en populatie met kleine objecten – waarbij elke fase wordt geïmplementeerd als een interactie tussen VLM-agents: ontwerper, criticus en orkestrator. Het raamwerk integreert strak asset-generatie via tekst-naar-3D-synthese voor statische objecten, datasetretrieval voor gearticuleerde objecten en schatting van fysieke eigenschappen. SceneSmith genereert 3-6x meer objecten dan eerdere methoden, met <2% onderlinge objectbotsingen en 96% van de objecten blijft stabiel onder fysicasimulatie. In een gebruikersstudie met 205 deelnemers behaalt het 92% gemiddelde realisme en 91% gemiddelde prompt-getrouwheid winpercentages ten opzichte van referentiemethoden. Wij tonen verder aan dat deze omgevingen kunnen worden gebruikt in een end-to-end pijplijn voor automatische evaluatie van robotbeleid.

English

Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.

SceneSmith: Agentische Generatie van Simulatieklare Binnenruimtes

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Samenvatting

Support