EmbodiedGen : Vers un moteur de génération 3D pour l'intelligence incarnée
EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence
June 12, 2025
Auteurs: Wang Xinjie, Liu Liu, Cao Yu, Wu Ruiqi, Qin Wenkang, Wang Dehui, Sui Wei, Su Zhizhong
cs.AI
Résumé
La construction d'un monde simulé en 3D physiquement réaliste et à l'échelle précise est cruciale pour l'entraînement et l'évaluation des tâches d'intelligence incarnée. La diversité, le réalisme, l'accessibilité à faible coût et l'abordabilité des ressources de données 3D sont essentiels pour atteindre la généralisation et l'évolutivité dans l'IA incarnée. Cependant, la plupart des tâches actuelles en intelligence incarnée reposent encore largement sur des ressources graphiques 3D traditionnelles, créées et annotées manuellement, qui souffrent de coûts de production élevés et d'un réalisme limité. Ces limitations entravent considérablement l'évolutivité des approches basées sur les données. Nous présentons EmbodiedGen, une plateforme fondamentale pour la génération interactive de mondes 3D. Elle permet la génération évolutive d'actifs 3D de haute qualité, contrôlables et photoréalistes, dotés de propriétés physiques précises et d'une échelle réaliste, au format URDF (Unified Robotics Description Format) à faible coût. Ces actifs peuvent être directement importés dans divers moteurs de simulation physique pour un contrôle physique granulaire, soutenant les tâches en aval d'entraînement et d'évaluation. EmbodiedGen est une boîte à outils complète et facile à utiliser, composée de six modules clés : Image-vers-3D, Texte-vers-3D, Génération de textures, Génération d'objets articulés, Génération de scènes et Génération de dispositions. EmbodiedGen génère des mondes 3D diversifiés et interactifs composés d'actifs 3D génératifs, exploitant l'IA générative pour répondre aux défis de généralisation et d'évaluation liés aux besoins de la recherche en intelligence incarnée. Le code est disponible à l'adresse suivante : https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
English
Constructing a physically realistic and accurately scaled simulated 3D world
is crucial for the training and evaluation of embodied intelligence tasks. The
diversity, realism, low cost accessibility and affordability of 3D data assets
are critical for achieving generalization and scalability in embodied AI.
However, most current embodied intelligence tasks still rely heavily on
traditional 3D computer graphics assets manually created and annotated, which
suffer from high production costs and limited realism. These limitations
significantly hinder the scalability of data driven approaches. We present
EmbodiedGen, a foundational platform for interactive 3D world generation. It
enables the scalable generation of high-quality, controllable and
photorealistic 3D assets with accurate physical properties and real-world scale
in the Unified Robotics Description Format (URDF) at low cost. These assets can
be directly imported into various physics simulation engines for fine-grained
physical control, supporting downstream tasks in training and evaluation.
EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key
modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object
Generation, Scene Generation and Layout Generation. EmbodiedGen generates
diverse and interactive 3D worlds composed of generative 3D assets, leveraging
generative AI to address the challenges of generalization and evaluation to the
needs of embodied intelligence related research. Code is available at
https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.