GigaBrain-0.5M*: un Modelo de Lenguaje Visual que Aprende a partir del Aprendizaje por Refuerzo Basado en Modelos del Mundo
GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning
February 12, 2026
Autores: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI
Resumen
Los modelos visión-lenguaje-acción (VLA) que predicen directamente fragmentos de acciones multi-paso a partir de observaciones actuales enfrentan limitaciones inherentes debido a una comprensión de escena restringida y capacidades débiles de anticipación futura. En contraste, los modelos de mundo de video pre-entrenados en corpus de video a escala web exhiben un razonamiento espacio-temporal robusto y una predicción futura precisa, lo que los convierte en una base natural para mejorar el aprendizaje VLA. Por lo tanto, proponemos GigaBrain-0.5M*, un modelo VLA entrenado mediante aprendizaje por refuerzo basado en modelos de mundo. Construido sobre GigaBrain-0.5, que está pre-entrenado en más de 10,000 horas de datos de manipulación robótica, y cuya versión intermedia actualmente ocupa el primer puesto en el benchmark internacional RoboChallenge. GigaBrain-0.5M* integra además el aprendizaje por refuerzo basado en modelos de mundo mediante RAMP (Reinforcement leArning via world Model-conditioned Policy) para permitir una adaptación robusta entre tareas. Los resultados empíricos demuestran que RAMP logra ganancias sustanciales de rendimiento sobre la línea base RECAP, produciendo mejoras de aproximadamente el 30% en tareas desafiantes que incluyen Doblar Ropa, Empaquetar Cajas y Preparar Espresso. Críticamente, GigaBrain-0.5M* exhibe una ejecución fiable a largo horizonte, logrando consistentemente tareas de manipulación complejas sin fallos, como lo validan los videos de despliegue en el mundo real en nuestra {página del proyecto https://gigabrain05m.github.io}.
English
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.