GigaWorld-0: 월드 모델을 데이터 엔진으로 활용하여 구현형 AI의 역량 강화하기
GigaWorld-0: World Models as Data Engine to Empower Embodied AI
November 25, 2025
저자: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI
초록
월드 모델은 확장 가능하고 데이터 효율적인 구현 AI를 위한 핵심 패러다임으로 부상하고 있습니다. 본 연구에서는 비전-언어-행동(VLA) 학습을 위한 데이터 엔진으로 명시적으로 설계된 통합 월드 모델 프레임워크인 GigaWorld-0를 소개합니다. GigaWorld-0는 상호 시너지적인 두 가지 구성 요소를 통합합니다: 첫째, GigaWorld-0-Video는 대규모 비디오 생성을 활용하여 외관, 카메라 시점, 행동 의미론의 세밀한 제어 하에 다양하고 질감이 풍부하며 시간적으로 일관된 구현 시퀀스를 생성합니다. 둘째, GigaWorld-0-3D는 3D 생성 모델링, 3D 가우시안 스플래팅 재구성, 물리적 미분 가능 시스템 식별, 실행 가능한 모션 플래닝을 결합하여 기하학적 일관성과 물리적 현실감을 보장합니다. 이들의 공동 최적화를 통해 시각적으로 매력적이고 공간적으로 일관되며 물리적으로 타당하고 지시에 부합하는 구현 상호작용 데이터의 확장 가능한 합성이 가능해집니다. FP8 정밀도와 희소 어텐션을 활용하여 메모리 및 컴퓨팅 요구 사항을 획기적으로 줄이는 효율적인 GigaTrain 프레임워크를 통해 대규모 학습이 가능합니다. 포괄적인 평가를 통해 GigaWorld-0가 다차원에 걸쳐 고품질, 다양성, 제어 가능한 데이터를 생성함을 입증합니다. 중요한 것은, GigaWorld-0에서 생성된 데이터로 학습된 VLA 모델(예: GigaBrain-0)이 강력한 실세계 성능을 달성하여, 학습 중 실세계 상호작용 없이도 물리적 로봇에서의 일반화 및 작업 성공률을 크게 향상시킵니다.
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.