EmbodiedGen: Verso un Motore Generativo 3D per Mondi Virtuali nell'Intelligenza Incorporata
EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence
June 12, 2025
Autori: Wang Xinjie, Liu Liu, Cao Yu, Wu Ruiqi, Qin Wenkang, Wang Dehui, Sui Wei, Su Zhizhong
cs.AI
Abstract
La costruzione di un mondo simulato 3D fisicamente realistico e accuratamente scalato è cruciale per l'addestramento e la valutazione di compiti di intelligenza incarnata. La diversità, il realismo, l'accessibilità a basso costo e l'abbordabilità degli asset di dati 3D sono fondamentali per raggiungere la generalizzazione e la scalabilità nell'IA incarnata. Tuttavia, la maggior parte dei compiti di intelligenza incarnata attuali si basa ancora pesantemente su asset di grafica 3D tradizionali creati e annotati manualmente, che soffrono di alti costi di produzione e di un realismo limitato. Queste limitazioni ostacolano significativamente la scalabilità degli approcci basati sui dati. Presentiamo EmbodiedGen, una piattaforma fondamentale per la generazione interattiva di mondi 3D. Essa consente la generazione scalabile di asset 3D di alta qualità, controllabili e fotorealistici, con proprietà fisiche accurate e scala reale nel formato Unified Robotics Description Format (URDF) a basso costo. Questi asset possono essere importati direttamente in vari motori di simulazione fisica per un controllo fisico granulare, supportando compiti a valle nell'addestramento e nella valutazione. EmbodiedGen è un toolkit facile da usare e completo, composto da sei moduli chiave: Image-to-3D, Text-to-3D, Generazione di Texture, Generazione di Oggetti Articolati, Generazione di Scene e Generazione di Layout. EmbodiedGen genera mondi 3D diversificati e interattivi composti da asset 3D generativi, sfruttando l'IA generativa per affrontare le sfide della generalizzazione e della valutazione in base alle esigenze della ricerca legata all'intelligenza incarnata. Il codice è disponibile all'indirizzo https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
English
Constructing a physically realistic and accurately scaled simulated 3D world
is crucial for the training and evaluation of embodied intelligence tasks. The
diversity, realism, low cost accessibility and affordability of 3D data assets
are critical for achieving generalization and scalability in embodied AI.
However, most current embodied intelligence tasks still rely heavily on
traditional 3D computer graphics assets manually created and annotated, which
suffer from high production costs and limited realism. These limitations
significantly hinder the scalability of data driven approaches. We present
EmbodiedGen, a foundational platform for interactive 3D world generation. It
enables the scalable generation of high-quality, controllable and
photorealistic 3D assets with accurate physical properties and real-world scale
in the Unified Robotics Description Format (URDF) at low cost. These assets can
be directly imported into various physics simulation engines for fine-grained
physical control, supporting downstream tasks in training and evaluation.
EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key
modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object
Generation, Scene Generation and Layout Generation. EmbodiedGen generates
diverse and interactive 3D worlds composed of generative 3D assets, leveraging
generative AI to address the challenges of generalization and evaluation to the
needs of embodied intelligence related research. Code is available at
https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.