SAGE: Generazione Scalabile di Scene 3D Agenti per l'IA Incorporata

Abstract

La raccolta di dati nel mondo reale per agenti embodied rimane costosa e pericolosa, richiedendo ambienti 3D scalabili, realistici e pronti per la simulazione. Tuttavia, i sistemi esistenti di generazione di scene spesso si basano su pipeline basate su regole o specifiche per compito, producendo artefatti e scene fisicamente non valide. Presentiamo SAGE, un framework agentico che, dato un compito embodied specificato dall'utente (ad esempio, "raccogli una ciotola e posizionala sul tavolo"), comprende l'intento e genera automaticamente ambienti pronti per la simulazione su larga scala. L'agente combina molteplici generatori per layout e composizione di oggetti con critici che valutano plausibilità semantica, realismo visivo e stabilità fisica. Attraverso ragionamento iterativo e selezione adattiva degli strumenti, affina autonomamente le scene fino a soddisfare l'intento dell'utente e la validità fisica. Gli ambienti risultanti sono realistici, diversificati e direttamente distribuibili nei simulatori moderni per l'addestramento di politiche. Le politiche addestrate esclusivamente su questi dati mostrano chiare tendenze di scalabilità e si generalizzano a oggetti e layout non visti, dimostrando la promessa della scalabilità guidata dalla simulazione per l'AI embodied. Codice, demo e il dataset SAGE-10k sono disponibili sulla pagina del progetto qui: https://nvlabs.github.io/sage.

English

Real-world data collection for embodied agents remains costly and unsafe, calling for scalable, realistic, and simulator-ready 3D environments. However, existing scene-generation systems often rely on rule-based or task-specific pipelines, yielding artifacts and physically invalid scenes. We present SAGE, an agentic framework that, given a user-specified embodied task (e.g., "pick up a bowl and place it on the table"), understands the intent and automatically generates simulation-ready environments at scale. The agent couples multiple generators for layout and object composition with critics that evaluate semantic plausibility, visual realism, and physical stability. Through iterative reasoning and adaptive tool selection, it self-refines the scenes until meeting user intent and physical validity. The resulting environments are realistic, diverse, and directly deployable in modern simulators for policy training. Policies trained purely on this data exhibit clear scaling trends and generalize to unseen objects and layouts, demonstrating the promise of simulation-driven scaling for embodied AI. Code, demos, and the SAGE-10k dataset can be found on the project page here: https://nvlabs.github.io/sage.

SAGE: Generazione Scalabile di Scene 3D Agenti per l'IA Incorporata

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Abstract

Support