ChatPaper.aiChatPaper

GigaBrain-0.5M* : un modèle de langage visuel (VLA) qui apprend par renforcement à partir de modèles du monde

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

February 12, 2026
papers.authors: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI

papers.abstract

Les modèles vision-langage-action (VLA) qui prédisent directement des séquences d'actions multi-étapes à partir d'observations actuelles présentent des limitations inhérentes dues à une compréhension contextuelle restreinte et de faibles capacités d'anticipation future. En revanche, les modèles de monde vidéo pré-entraînés sur des corpus vidéo à l'échelle du web démontrent un raisonnement spatiotemporel robuste et une prédiction future précise, ce qui en fait une base naturelle pour améliorer l'apprentissage VLA. Par conséquent, nous proposons GigaBrain-0.5M*, un modèle VLA entraîné via un apprentissage par renforcement basé sur un modèle de monde. Construit sur GigaBrain-0.5, pré-entraîné sur plus de 10 000 heures de données de manipulation robotique - dont la version intermédiaire se classe actuellement première au benchmark international RoboChallenge - GigaBrain-0.5M* intègre en outre un apprentissage par renforcement basé sur un modèle de monde via RAMP (Reinforcement leArning via world Model-conditioned Policy) pour permettre une adaptation robuste inter-tâches. Les résultats empiriques démontrent que RAMP obtient des gains de performance substantiels par rapport à la baseline RECAP, avec des améliorations d'environ 30% sur des tâches complexes incluant le pliage de linge, l'emballage de cartons et la préparation d'espresso. Fait crucial, GigaBrain-0.5M* présente une exécution fiable sur des horizons temporels longs, accomplissant systématiquement des tâches de manipulation complexes sans échec, comme validé par les vidéos de déploiement en conditions réelles sur notre {page du projet https://gigabrain05m.github.io}.
English
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.
PDF331February 14, 2026