GigaBrain-0.5M*: um Modelo de Linguagem Visível que Aprende a partir de Aprendizagem por Reforço Baseada em Modelo Mundial
GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning
February 12, 2026
Autores: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI
Resumo
Os modelos visão-linguagem-ação (VLA) que preveem diretamente sequências de ações multi-etapa a partir de observações atuais enfrentam limitações inerentes devido à compreensão restrita da cena e a capacidades fracas de antecipação futura. Em contraste, os modelos de mundo de vídeo pré-treinados em corpora de vídeo em escala da web exibem raciocínio espaço-temporal robusto e previsão futura precisa, tornando-os uma base natural para aprimorar o aprendizado VLA. Portanto, propomos o GigaBrain-0.5M*, um modelo VLA treinado via aprendizado por reforço baseado em modelo de mundo. Construído sobre o GigaBrain-0.5, que é pré-treinado em mais de 10.000 horas de dados de manipulação robótica, cuja versão intermediária atualmente ocupa a primeira posição no benchmark internacional RoboChallenge. O GigaBrain-0.5M* integra ainda mais o aprendizado por reforço baseado em modelo de mundo via RAMP (Reinforcement leArning via world Model-conditioned Policy) para permitir uma adaptação robusta entre tarefas. Resultados empíricos demonstram que o RAMP alcança ganhos substanciais de desempenho sobre a linha de base RECAP, produzindo melhorias de aproximadamente 30% em tarefas desafiadoras, incluindo Dobragem de Roupa, Empacotamento de Caixas e Preparo de Espresso. Criticalmente, o GigaBrain-0.5M* exibe execução confiável de longo horizonte, realizando consistentemente tarefas complexas de manipulação sem falhas, conforme validado por vídeos de implantação no mundo real em nossa {página do projeto}[https://gigabrain05m.github.io].
English
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.