ChatPaper.aiChatPaper

GigaWorld-0: 世界モデルをデータエンジンとして具身AIを強化する

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

November 25, 2025
著者: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI

要旨

ワールドモデルは、スケーラブルでデータ効率の良いエンボディードAIの基盤パラダイムとして台頭しつつある。本研究では、視覚-言語-行動(VLA)学習のデータエンジンとして明示的に設計された統一ワールドモデルフレームワーク「GigaWorld-0」を提案する。GigaWorld-0は、2つの相乗的コンポーネントを統合する:外観・カメラ視点・行動意味を細粒度で制御下に、多様で質感豊か、時間的一貫性のあるエンボディードシーケンスを大規模動画生成で生成する「GigaWorld-0-Video」と、3D生成モデリング・3Dガウススプラッティング再構成・物理微分可能なシステム同定・実行可能な運動計画を組み合わせ、幾何学的一貫性と物理的真实性を保証する「GigaWorld-0-3D」である。これらを共同最適化することで、視覚的に魅力的で空間的一貫性があり、物理的に妥当かつ指示に整合したエンボディード相互作用データのスケーラブルな合成を実現する。大規模学習は、FP8精度と疎注意を活用してメモリと計算要件を大幅に削減する効率的な「GigaTrain」フレームワークにより実現可能である。包括的評価により、GigaWorld-0が多次元にわたり高品質・多様・制御可能なデータを生成することを示す。決定的に、GigaWorld-0生成データで学習したVLAモデル(例:GigaBrain-0)は、学習中に実世界相互作用を一切行わずとも、物理ロボットにおける汎化性能とタスク成功率を大幅に向上させ、強力な実世界性能を達成する。
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.
PDF286December 1, 2025