구현된 지능을 위한 생성적 3D 세계 엔진을 향한 EmbodiedGen
EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence
June 12, 2025
저자: Wang Xinjie, Liu Liu, Cao Yu, Wu Ruiqi, Qin Wenkang, Wang Dehui, Sui Wei, Su Zhizhong
cs.AI
초록
물리적으로 현실적이고 정확하게 스케일링된 3D 시뮬레이션 세계를 구축하는 것은 구체화된 지능(embodied intelligence) 작업의 훈련과 평가에 있어 매우 중요합니다. 3D 데이터 자산의 다양성, 현실성, 저비용 접근성 및 경제성은 구체화된 AI에서 일반화와 확장성을 달성하는 데 핵심적입니다. 그러나 현재 대부분의 구체화된 지능 작업은 여전히 수동으로 생성되고 주석이 달린 전통적인 3D 컴퓨터 그래픽 자산에 크게 의존하고 있으며, 이는 높은 제작 비용과 제한된 현실성으로 인해 문제가 됩니다. 이러한 한계는 데이터 기반 접근법의 확장성을 크게 저해합니다. 본 논문에서는 상호작용 가능한 3D 세계 생성을 위한 기반 플랫폼인 EmbodiedGen을 소개합니다. EmbodiedGen은 저비용으로 정확한 물리적 특성과 실세계 스케일을 가진 고품질, 제어 가능, 사실적인 3D 자산을 Unified Robotics Description Format(URDF)으로 대규모로 생성할 수 있도록 합니다. 이러한 자산은 다양한 물리 시뮬레이션 엔진으로 직접 임포트되어 세밀한 물리적 제어를 지원하며, 훈련 및 평가를 위한 다운스트림 작업을 지원합니다. EmbodiedGen은 사용하기 쉬운 풀-피처드 툴킷으로, Image-to-3D, Text-to-3D, 텍스처 생성, 관절형 객체 생성, 장면 생성 및 레이아웃 생성 등 6가지 주요 모듈로 구성되어 있습니다. EmbodiedGen은 생성적 AI를 활용하여 구체화된 지능 관련 연구의 일반화 및 평가 요구 사항을 해결하기 위해 다양한 상호작용 가능한 3D 세계를 생성합니다. 코드는 https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html에서 확인할 수 있습니다.
English
Constructing a physically realistic and accurately scaled simulated 3D world
is crucial for the training and evaluation of embodied intelligence tasks. The
diversity, realism, low cost accessibility and affordability of 3D data assets
are critical for achieving generalization and scalability in embodied AI.
However, most current embodied intelligence tasks still rely heavily on
traditional 3D computer graphics assets manually created and annotated, which
suffer from high production costs and limited realism. These limitations
significantly hinder the scalability of data driven approaches. We present
EmbodiedGen, a foundational platform for interactive 3D world generation. It
enables the scalable generation of high-quality, controllable and
photorealistic 3D assets with accurate physical properties and real-world scale
in the Unified Robotics Description Format (URDF) at low cost. These assets can
be directly imported into various physics simulation engines for fine-grained
physical control, supporting downstream tasks in training and evaluation.
EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key
modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object
Generation, Scene Generation and Layout Generation. EmbodiedGen generates
diverse and interactive 3D worlds composed of generative 3D assets, leveraging
generative AI to address the challenges of generalization and evaluation to the
needs of embodied intelligence related research. Code is available at
https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.