SceneSmith: Generación Agéntica de Escenarios Interiores Listos para Simulación
SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes
February 9, 2026
Autores: Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake
cs.AI
Resumen
La simulación se ha convertido en una herramienta clave para entrenar y evaluar robots domésticos a gran escala; sin embargo, los entornos existentes no logran capturar la diversidad y complejidad física de los espacios interiores reales. Los métodos actuales de síntesis de escenas producen habitaciones escasamente amuebladas que carecen del desorden denso, los muebles articulados y las propiedades físicas esenciales para la manipulación robótica. Presentamos SceneSmith, un marco agéntico jerárquico que genera entornos interiores listos para simulación a partir de instrucciones en lenguaje natural. SceneSmith construye escenas a través de etapas sucesivas—desde el diseño arquitectónico hasta la colocación de muebles y la población de objetos pequeños—cada una implementada como una interacción entre agentes VLM: diseñador, crítico y orquestador. El marco integra estrechamente la generación de recursos mediante síntesis de texto a 3D para objetos estáticos, la recuperación de conjuntos de datos para objetos articulados y la estimación de propiedades físicas. SceneSmith genera entre 3 y 6 veces más objetos que los métodos anteriores, con <2% de colisiones entre objetos y un 96% de los objetos permaneciendo estables bajo simulación física. En un estudio de usuarios con 205 participantes, logra tasas de preferencia del 92% en realismo promedio y del 91% en fidelidad promedio a la instrucción frente a los métodos de referencia. Además, demostramos que estos entornos pueden utilizarse en un proceso integral para la evaluación automática de políticas robóticas.
English
Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.