SAGE: Масштабируемая агентная генерация 3D-сцен для воплощённого ИИ

Аннотация

Сбор реальных данных для воплощенных агентов остается дорогостоящим и небезопасным, что создает потребность в масштабируемых, реалистичных и готовых к использованию в симуляторах 3D-средах. Однако существующие системы генерации сцен часто полагаются на основанные на правилах или специализированные для конкретных задач пайплайны, что приводит к артефактам и физически некорректным сценам. Мы представляем SAGE — агентный фреймворк, который, получая от пользователя задачу для воплощенного агента (например, «возьми чашу и поставь ее на стол»), понимает ее суть и автоматически генерирует готовые к симуляции среды в больших масштабах. Агент объединяет несколько генераторов для планировки и композиции объектов с критиками, которые оценивают семантическую правдоподобность, визуальный реализм и физическую стабильность. Благодаря итеративному рассуждению и адаптивному выбору инструментов он самостоятельно улучшает сцены до соответствия замыслу пользователя и физической корректности. Получающиеся среды реалистичны, разнообразны и напрямую развертываются в современных симуляторах для обучения политик. Политики, обученные исключительно на таких данных, демонстрируют четкие тенденции масштабирования и обобщаются на неизвестные объекты и планировки, что подтверждает перспективность симуляционного масштабирования для воплощенного ИИ. Код, демонстрации и набор данных SAGE-10k доступны на странице проекта: https://nvlabs.github.io/sage.

English

Real-world data collection for embodied agents remains costly and unsafe, calling for scalable, realistic, and simulator-ready 3D environments. However, existing scene-generation systems often rely on rule-based or task-specific pipelines, yielding artifacts and physically invalid scenes. We present SAGE, an agentic framework that, given a user-specified embodied task (e.g., "pick up a bowl and place it on the table"), understands the intent and automatically generates simulation-ready environments at scale. The agent couples multiple generators for layout and object composition with critics that evaluate semantic plausibility, visual realism, and physical stability. Through iterative reasoning and adaptive tool selection, it self-refines the scenes until meeting user intent and physical validity. The resulting environments are realistic, diverse, and directly deployable in modern simulators for policy training. Policies trained purely on this data exhibit clear scaling trends and generalize to unseen objects and layouts, demonstrating the promise of simulation-driven scaling for embodied AI. Code, demos, and the SAGE-10k dataset can be found on the project page here: https://nvlabs.github.io/sage.

SAGE: Масштабируемая агентная генерация 3D-сцен для воплощённого ИИ

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Аннотация

Support