EmbodiedGen: В направлении к генеративному 3D-движку мира для воплощённого интеллекта
EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence
June 12, 2025
Авторы: Wang Xinjie, Liu Liu, Cao Yu, Wu Ruiqi, Qin Wenkang, Wang Dehui, Sui Wei, Su Zhizhong
cs.AI
Аннотация
Создание физически реалистичного и точно масштабированного симулированного 3D-мира имеет ключевое значение для обучения и оценки задач воплощённого интеллекта. Разнообразие, реалистичность, доступность и низкая стоимость 3D-активов критически важны для достижения обобщаемости и масштабируемости в воплощённом ИИ. Однако большинство современных задач воплощённого интеллекта по-прежнему в значительной степени опираются на традиционные 3D-активы компьютерной графики, созданные и аннотированные вручную, которые страдают от высоких затрат на производство и ограниченной реалистичности. Эти ограничения существенно затрудняют масштабируемость подходов, основанных на данных. Мы представляем EmbodiedGen — базовую платформу для интерактивного создания 3D-миров. Она позволяет масштабируемо генерировать высококачественные, управляемые и фотореалистичные 3D-активы с точными физическими свойствами и реальным масштабом в формате Unified Robotics Description Format (URDF) при низких затратах. Эти активы могут быть напрямую импортированы в различные движки физической симуляции для детализированного физического управления, поддерживая задачи обучения и оценки. EmbodiedGen представляет собой удобный в использовании, полнофункциональный инструментарий, состоящий из шести ключевых модулей: Image-to-3D, Text-to-3D, Генерация текстур, Генерация сочленённых объектов, Генерация сцен и Генерация компоновки. EmbodiedGen создаёт разнообразные и интерактивные 3D-миры, состоящие из генеративных 3D-активов, используя генеративный ИИ для решения задач обобщения и оценки в соответствии с потребностями исследований, связанных с воплощённым интеллектом. Код доступен по адресу https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
English
Constructing a physically realistic and accurately scaled simulated 3D world
is crucial for the training and evaluation of embodied intelligence tasks. The
diversity, realism, low cost accessibility and affordability of 3D data assets
are critical for achieving generalization and scalability in embodied AI.
However, most current embodied intelligence tasks still rely heavily on
traditional 3D computer graphics assets manually created and annotated, which
suffer from high production costs and limited realism. These limitations
significantly hinder the scalability of data driven approaches. We present
EmbodiedGen, a foundational platform for interactive 3D world generation. It
enables the scalable generation of high-quality, controllable and
photorealistic 3D assets with accurate physical properties and real-world scale
in the Unified Robotics Description Format (URDF) at low cost. These assets can
be directly imported into various physics simulation engines for fine-grained
physical control, supporting downstream tasks in training and evaluation.
EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key
modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object
Generation, Scene Generation and Layout Generation. EmbodiedGen generates
diverse and interactive 3D worlds composed of generative 3D assets, leveraging
generative AI to address the challenges of generalization and evaluation to the
needs of embodied intelligence related research. Code is available at
https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.