ChatPaper.aiChatPaper

GigaBrain-0.5M*: 세계 모델 기반 강화 학습으로 학습하는 초대규모 인공지능

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

February 12, 2026
저자: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI

초록

현재 관측으로부터 다단계 행동 청크를 직접 예측하는 비전-언어-행동(VLA) 모델은 제한된 장면 이해와 약한 미래 예측 능력으로 인해 본질적인 한계에 직면해 있습니다. 이와 대조적으로, 웹 규모의 비디오 코퍼스로 사전 학습된 비디오 월드 모델은 강력한 시공간 추론과 정확한 미래 예측 능력을 보여주어 VLA 학습 향상을 위한 자연스러운 기반이 됩니다. 따라서 우리는 월드 모델 기반 강화 학습을 통해 훈련된 VLA 모델인 GigaBrain-0.5M*를 제안합니다. 10,000시간 이상의 로봇 매니퓰레이션 데이터로 사전 학습되어 중간 버전이 현재 국제 RoboChallenge 벤치마크에서 1위를 차지하고 있는 GigaBrain-0.5를 기반으로, GigaBrain-0.5M*는 RAMP(Reinforcement leArning via world Model-conditioned Policy)를 통한 월드 모델 기반 강화 학습을 추가로 통합하여 강력한 교차 작업 적응을 가능하게 합니다. 실험 결과는 RAMP가 RECAP 기준선을 상회하는 상당한 성능 향상을 달성하며, Laundry Folding, Box Packing, Espresso Preparation을 포함한 난이도 높은 작업에서 약 30%의 개선을 보여줍니다. 중요한 것은 GigaBrain-0.5M*가 신뢰할 수 있는 장기간 실행 능력을 보여주며, 우리의 https://gigabrain05m.github.io{프로젝트 페이지}에 게시된 실제 배포 영상으로 검증된 바와 같이 복잡한 매니퓰레이션 작업을 실패 없이 일관되게 성공한다는 점입니다.
English
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.
PDF331February 14, 2026