SAGE: Geração Escalável de Cenas 3D Agênticas para IA Corporificada

Resumo

A coleta de dados do mundo real para agentes corporificados continua sendo dispendiosa e insegura, exigindo ambientes 3D escaláveis, realistas e prontos para simulador. No entanto, os sistemas existentes de geração de cenas frequentemente dependem de pipelines baseados em regras ou específicos para tarefas, resultando em artefatos e cenas fisicamente inválidas. Apresentamos o SAGE, uma estrutura agentiva que, dada uma tarefa corporificada especificada pelo usuário (por exemplo, "pegue uma tigela e coloque-a sobre a mesa"), compreende a intenção e gera automaticamente ambientes prontos para simulação em escala. O agente acopla múltiplos geradores para layout e composição de objetos a críticos que avaliam plausibilidade semântica, realismo visual e estabilidade física. Por meio de raciocínio iterativo e seleção adaptativa de ferramentas, ele autorrefina as cenas até atender à intenção do usuário e à validade física. Os ambientes resultantes são realistas, diversificados e diretamente implantáveis em simuladores modernos para treinamento de políticas. Políticas treinadas exclusivamente com esses dados exibem tendências claras de escalabilidade e generalizam para objetos e layouts não vistos, demonstrando a promessa do escalonamento orientado por simulação para IA corporificada. Código, demonstrações e o conjunto de dados SAGE-10k podem ser encontrados na página do projeto aqui: https://nvlabs.github.io/sage.

English

Real-world data collection for embodied agents remains costly and unsafe, calling for scalable, realistic, and simulator-ready 3D environments. However, existing scene-generation systems often rely on rule-based or task-specific pipelines, yielding artifacts and physically invalid scenes. We present SAGE, an agentic framework that, given a user-specified embodied task (e.g., "pick up a bowl and place it on the table"), understands the intent and automatically generates simulation-ready environments at scale. The agent couples multiple generators for layout and object composition with critics that evaluate semantic plausibility, visual realism, and physical stability. Through iterative reasoning and adaptive tool selection, it self-refines the scenes until meeting user intent and physical validity. The resulting environments are realistic, diverse, and directly deployable in modern simulators for policy training. Policies trained purely on this data exhibit clear scaling trends and generalize to unseen objects and layouts, demonstrating the promise of simulation-driven scaling for embodied AI. Code, demos, and the SAGE-10k dataset can be found on the project page here: https://nvlabs.github.io/sage.

SAGE: Geração Escalável de Cenas 3D Agênticas para IA Corporificada

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Resumo

Support