GigaBrain-0.5M*: Ein VLA, das durch weltmodellbasiertes Reinforcement Learning lernt
GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning
February 12, 2026
papers.authors: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle, die direkt mehrstufige Aktionsabfolgen aus aktuellen Beobachtungen vorhersagen, stoßen aufgrund eingeschränkter Szenenverständnis- und schwacher Zukunftsantizipationsfähigkeiten auf inhärente Grenzen. Im Gegensatz dazu zeigen Video-World-Models, die mit webumspannenden Videokorpora vortrainiert wurden, robustes raumzeitliches Reasoning und präzise Zukunftsprognosen, was sie zu einer natürlichen Grundlage für die Verbesserung des VLA-Lernens macht. Daher schlagen wir GigaBrain-0.5M* vor, ein VLA-Modell, das durch World-Model-basiertes Reinforcement Learning trainiert wurde. Aufbauend auf GigaBrain-0.5, das mit über 10.000 Stunden Robotermanipulationsdaten vortrainiert wurde und dessen Zwischenversion derzeit den ersten Platz im internationalen RoboChallenge-Benchmark belegt, integriert GigaBrain-0.5M* weiterhin World-Model-basiertes Reinforcement Learning mittels RAMP (Reinforcement leArning via world Model-conditioned Policy), um eine robuste übertaskübergreifende Adaption zu ermöglichen. Empirische Ergebnisse zeigen, dass RAMP erhebliche Leistungssteigerungen gegenüber der RECAP-Baseline erzielt und Verbesserungen von etwa 30 % bei anspruchsvollen Aufgaben wie Wäschefalten, Kartonverpacken und Espressozubereitung erreicht. Entscheidend ist, dass GigaBrain-0.5M* zuverlässige Langzeitexekution zeigt und komplexe Manipulationsaufgaben konsistent ohne Fehlschlag bewältigt, wie durch Einsatzvideos in der realen Welt auf unserer {Projektseite https://gigabrain05m.github.io} validiert wurde.
English
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.