GigaBrain-0: ワールドモデル駆動型視覚-言語-行動モデル
GigaBrain-0: A World Model-Powered Vision-Language-Action Model
October 22, 2025
著者: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu
cs.AI
要旨
汎用ロボット向けのVision-Language-Action(VLA)モデルのトレーニングには、通常、大規模な実世界のロボットデータが必要であり、その収集には多大なコストと時間がかかります。物理的なデータ収集の非効率性は、現在のVLAシステムのスケーラビリティと汎化能力を著しく制限しています。この課題に対処するため、我々はGigaBrain-0を導入します。これは、ワールドモデルによって生成されたデータ(例:ビデオ生成、real2real転送、人間転送、視点転送、sim2real転送データ)を活用した新しいVLA基盤モデルです。ワールドモデルを活用して多様なデータを大規模に生成することで、GigaBrain-0は実ロボットデータへの依存を大幅に削減しつつ、クロスタスク汎化を向上させます。さらに、RGBD入力モデリングと具現化されたChain-of-Thought(CoT)監視を通じてポリシーの堅牢性を向上させ、タスク実行中に空間幾何学、オブジェクト状態、長期的な依存関係を推論できるようにします。これにより、器用な操作、長期的な操作、および移動操作タスクにおける実世界のパフォーマンスが大幅に向上します。広範な実験により、GigaBrain-0が外観(例:テクスチャ、色)、オブジェクト配置、カメラ視点の変動に対して優れた汎化能力を発揮することが実証されています。さらに、NVIDIA Jetson AGX Orinなどのデバイスで効率的に動作するように最適化された軽量バリアントであるGigaBrain-0-Smallも紹介します。
English
Training Vision-Language-Action (VLA) models for generalist robots typically
requires large-scale real-world robot data, which is expensive and
time-consuming to collect. The inefficiency of physical data collection
severely limits the scalability, and generalization capacity of current VLA
systems. To address this challenge, we introduce GigaBrain-0, a novel VLA
foundation model empowered by world model-generated data (e.g., video
generation, real2real transfer, human transfer, view transfer, sim2real
transfer data). By leveraging world models to generate diverse data at scale,
GigaBrain-0 significantly reduces reliance on real robot data while improving
cross-task generalization. Our approach further improves policy robustness
through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision,
enabling the model to reason about spatial geometry, object states, and
long-horizon dependencies during task execution. This leads to substantial
gains in real-world performance on dexterous, long-horizon, and mobile
manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves
superior generalization across variations in appearances (e.g., textures,
colors), object placements, and camera viewpoints. Additionally, we present
GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently
on devices such as the NVIDIA Jetson AGX Orin.