ChatPaper.aiChatPaper

GigaBrain-0.5M*: un VLA che apprende dall'Apprendimento per Rinforzo basato su Modelli del Mondo

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

February 12, 2026
Autori: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI

Abstract

I modelli visione-linguaggio-azione (VLA) che predicono direttamente blocchi di azioni multi-step dalle osservazioni correnti affrontano limitazioni intrinseche a causa di una comprensione della scena vincolata e di capacità di anticipazione futura deboli. Al contrario, i modelli mondiali video pre-addestrati su corpora video di scala web-esibiscono un ragionamento spazio-temporale robusto e una predizione futura accurata, rendendoli una base naturale per potenziare l'apprendimento VLA. Pertanto, proponiamo GigaBrain-0.5M*, un modello VLA addestrato tramite apprendimento per rinforzo basato su modello mondiale. Basato su GigaBrain-0.5, che è pre-addestrato su oltre 10.000 ore di dati di manipolazione robotica e la cui versione intermedia è attualmente al primo posto nel benchmark internazionale RoboChallenge, GigaBrain-0.5M* integra ulteriormente l'apprendimento per rinforzo basato su modello mondiale tramite RAMP (Reinforcement leArning via world Model-conditioned Policy) per abilitare un robusto adattamento cross-task. I risultati empirici dimostrano che RAMP ottiene sostanziali guadagni di prestazione rispetto al baseline RECAP, producendo miglioramenti di circa il 30% su task impegnativi come Laundry Folding, Box Packing e Espresso Preparation. In modo cruciale, GigaBrain-0.5M* mostra un'esecuzione affidabile su orizzonti lunghi, portando a termine con costanza compiti di manipolazione complessi senza fallimenti, come validato dai video di deployment nel mondo reale sulla nostra [pagina del progetto](https://gigabrain05m.github.io).
English
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.
PDF582March 17, 2026