SAGE: Schaalbare Agente-gebaseerde 3D-scènegeneratie voor belichaamde AI

Samenvatting

Het verzamelen van real-world data voor belichaamde agents blijft kostbaar en onveilig, wat de vraag oproept naar schaalbare, realistische en simulator-klare 3D-omgevingen. Bestaande systemen voor scènegeneratie vertrouwen echter vaak op op regels gebaseerde of taakspecifieke pijplijnen, wat leidt tot artefacten en fysiek ongeldige scènes. Wij presenteren SAGE, een agent-gebaseerd framework dat, gegeven een door de gebruiker gespecificeerde belichaamde taak (bijvoorbeeld "pak een kom op en zet deze op tafel"), de intentie begrijpt en automatisch op grote schaal simulator-klare omgevingen genereert. De agent koppelt meerdere generators voor indeling en objectcompositie aan critics die de semantische plausibiliteit, visuele realisme en fysieke stabiliteit evalueren. Door iteratief redeneren en adaptieve toolselectie verfijnt het de scènes zelfstandig totdat deze voldoen aan de gebruikersintentie en fysieke geldigheid. De resulterende omgevingen zijn realistisch, divers en direct inzetbaar in moderne simulators voor beleidstraining. Beleiden die uitsluitend op deze data zijn getraind, vertonen duidelijke schaalbaarheidstrends en generaliseren naar onbekende objecten en indelingen, wat de belofte aantoont van simulatie-gedreven schaalvergroting voor belichaamde AI. Code, demo's en de SAGE-10k-dataset zijn te vinden op de projectpagina hier: https://nvlabs.github.io/sage.

English

Real-world data collection for embodied agents remains costly and unsafe, calling for scalable, realistic, and simulator-ready 3D environments. However, existing scene-generation systems often rely on rule-based or task-specific pipelines, yielding artifacts and physically invalid scenes. We present SAGE, an agentic framework that, given a user-specified embodied task (e.g., "pick up a bowl and place it on the table"), understands the intent and automatically generates simulation-ready environments at scale. The agent couples multiple generators for layout and object composition with critics that evaluate semantic plausibility, visual realism, and physical stability. Through iterative reasoning and adaptive tool selection, it self-refines the scenes until meeting user intent and physical validity. The resulting environments are realistic, diverse, and directly deployable in modern simulators for policy training. Policies trained purely on this data exhibit clear scaling trends and generalize to unseen objects and layouts, demonstrating the promise of simulation-driven scaling for embodied AI. Code, demos, and the SAGE-10k dataset can be found on the project page here: https://nvlabs.github.io/sage.

SAGE: Schaalbare Agente-gebaseerde 3D-scènegeneratie voor belichaamde AI

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Samenvatting

Support