SceneSmith: Geração Agente de Cenários Internos Prontos para Simulação

Resumo

A simulação tornou-se uma ferramenta fundamental para treinar e avaliar robôs domésticos em escala, no entanto, os ambientes existentes não conseguem capturar a diversidade e a complexidade física dos espaços interiores reais. Os métodos atuais de síntese de cenas produzem salas escassamente mobiliadas que carecem da desordem densa, dos móveis articulados e das propriedades físicas essenciais para a manipulação robótica. Apresentamos o SceneSmith, uma estrutura agentiva hierárquica que gera ambientes interiores prontos para simulação a partir de comandos em linguagem natural. O SceneSmith constrói cenas através de estágios sucessivos – desde o layout arquitetónico até à colocação de mobília e à população de pequenos objetos –, cada um implementado como uma interação entre agentes VLM: designer, crítico e orquestrador. A estrutura integra estreitamente a geração de *assets* através de síntese texto-para-3D para objetos estáticos, recuperação de conjuntos de dados para objetos articulados e estimativa de propriedades físicas. O SceneSmith gera 3 a 6 vezes mais objetos do que os métodos anteriores, com <2% de colisões entre objetos e 96% dos objetos permanecendo estáveis sob simulação física. Num estudo com 205 participantes, atinge taxas de vitória de 92% em realismo médio e 91% em fidelidade média ao comando face às *baselines*. Demonstramos ainda que estes ambientes podem ser usados num *pipeline* de ponta a ponta para avaliação automática de políticas robóticas.

English

Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.