GigaBrain-0.5M*: un VLA che apprende dall'Apprendimento per Rinforzo basato su Modelli del Mondo

Abstract

I modelli visione-linguaggio-azione (VLA) che predicono direttamente blocchi di azioni multi-step dalle osservazioni correnti affrontano limitazioni intrinseche a causa di una comprensione della scena vincolata e di capacità di anticipazione futura deboli. Al contrario, i modelli mondiali video pre-addestrati su corpora video di scala web-esibiscono un ragionamento spazio-temporale robusto e una predizione futura accurata, rendendoli una base naturale per potenziare l'apprendimento VLA. Pertanto, proponiamo GigaBrain-0.5M*, un modello VLA addestrato tramite apprendimento per rinforzo basato su modello mondiale. Basato su GigaBrain-0.5, che è pre-addestrato su oltre 10.000 ore di dati di manipolazione robotica e la cui versione intermedia è attualmente al primo posto nel benchmark internazionale RoboChallenge, GigaBrain-0.5M* integra ulteriormente l'apprendimento per rinforzo basato su modello mondiale tramite RAMP (Reinforcement leArning via world Model-conditioned Policy) per abilitare un robusto adattamento cross-task. I risultati empirici dimostrano che RAMP ottiene sostanziali guadagni di prestazione rispetto al baseline RECAP, producendo miglioramenti di circa il 30% su task impegnativi come Laundry Folding, Box Packing e Espresso Preparation. In modo cruciale, GigaBrain-0.5M* mostra un'esecuzione affidabile su orizzonti lunghi, portando a termine con costanza compiti di manipolazione complessi senza fallimenti, come validato dai video di deployment nel mondo reale sulla nostra [pagina del progetto](https://gigabrain05m.github.io).

English

Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.

GigaBrain-0.5M*: un VLA che apprende dall'Apprendimento per Rinforzo basato su Modelli del Mondo

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Abstract

Support