エンボディドジェン:身体性知能のための生成的3D世界エンジンに向けて
EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence
June 12, 2025
著者: Wang Xinjie, Liu Liu, Cao Yu, Wu Ruiqi, Qin Wenkang, Wang Dehui, Sui Wei, Su Zhizhong
cs.AI
要旨
物理的に現実的で正確にスケーリングされた3Dシミュレーションワールドの構築は、身体性を持つ知能タスクの訓練と評価において極めて重要である。3Dデータアセットの多様性、現実感、低コストでのアクセス性と手頃さは、身体性AIにおける汎用性とスケーラビリティを達成するために不可欠である。しかし、現在のほとんどの身体性知能タスクは、依然として手作業で作成および注釈付けされた従来の3Dコンピュータグラフィックスアセットに大きく依存しており、これらは高い制作コストと限られた現実感という問題を抱えている。これらの制約は、データ駆動型アプローチのスケーラビリティを著しく妨げている。本論文では、インタラクティブな3Dワールド生成のための基盤プラットフォームであるEmbodiedGenを紹介する。EmbodiedGenは、低コストで高品質で制御可能かつフォトリアルな3Dアセットを、正確な物理特性と実世界のスケールでUnified Robotics Description Format(URDF)に基づいて生成することを可能にする。これらのアセットは、さまざまな物理シミュレーションエンジンに直接インポートされ、細かな物理制御をサポートし、訓練と評価における下流タスクを支援する。EmbodiedGenは、使いやすく、フル機能を備えたツールキットであり、Image-to-3D、Text-to-3D、テクスチャ生成、関節オブジェクト生成、シーン生成、レイアウト生成の6つの主要モジュールで構成されている。EmbodiedGenは、生成AIを活用して、身体性知能関連研究のニーズに応じた汎用性と評価の課題に対処するために、生成的な3Dアセットで構成された多様でインタラクティブな3Dワールドを生成する。コードはhttps://horizonrobotics.github.io/robot_lab/embodied_gen/index.htmlで公開されている。
English
Constructing a physically realistic and accurately scaled simulated 3D world
is crucial for the training and evaluation of embodied intelligence tasks. The
diversity, realism, low cost accessibility and affordability of 3D data assets
are critical for achieving generalization and scalability in embodied AI.
However, most current embodied intelligence tasks still rely heavily on
traditional 3D computer graphics assets manually created and annotated, which
suffer from high production costs and limited realism. These limitations
significantly hinder the scalability of data driven approaches. We present
EmbodiedGen, a foundational platform for interactive 3D world generation. It
enables the scalable generation of high-quality, controllable and
photorealistic 3D assets with accurate physical properties and real-world scale
in the Unified Robotics Description Format (URDF) at low cost. These assets can
be directly imported into various physics simulation engines for fine-grained
physical control, supporting downstream tasks in training and evaluation.
EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key
modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object
Generation, Scene Generation and Layout Generation. EmbodiedGen generates
diverse and interactive 3D worlds composed of generative 3D assets, leveraging
generative AI to address the challenges of generalization and evaluation to the
needs of embodied intelligence related research. Code is available at
https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.