ChatPaper.aiChatPaper

GigaBrain-0.5M*: 世界モデルに基づく強化学習から学習する視覚言語行動モデル

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

February 12, 2026
著者: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI

要旨

現在の観測から複数ステップの行動チャンクを直接予測する視覚言語行動(VLA)モデルは、限定的なシーン理解と弱い将来予測能力により本質的な制約に直面しています。一方、ウェブ規模のビデオデータで事前学習されたビデオ世界モデルは、堅牢な時空間推論と正確な将来予測を実現しており、VLA学習を強化する自然な基盤として機能します。そこで我々は、世界モデルベースの強化学習によって訓練されたVLAモデル「GigaBrain-0.5M*」を提案します。本モデルは1万時間以上のロボット把持データで事前学習され、中間バージョンが国際RoboChallengeベンチマークで首位を獲得しているGigaBrain-0.5を基盤としています。GigaBrain-0.5M*はさらに、RAMP(世界モデル条件付きポリシーによる強化学習)を介した世界モデルベースの強化学習を統合し、頑健なクロスタスク適応を実現します。実験結果では、RAMPがRECAPベースラインを大幅に上回り、洗濯物折りたたみ・箱詰め・エスプレッソ準備といった難易度の高いタスクで約30%の性能向上を達成しました。特に重要なのは、GigaBrain-0.5M*が信頼性の高い長期的実行能力を示し、実際の環境導入ビデオ(https://gigabrain05m.github.io)で検証されたように、複雑な把持タスクを失敗なく一貫して達成できる点です。
English
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.
PDF331February 14, 2026