SimpleVLA-RL: Schaalbaarheid van VLA-training via Reinforcement Learning
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
September 11, 2025
Auteurs: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen zijn recent naar voren gekomen als een krachtig paradigma voor robotmanipulatie. Ondanks aanzienlijke vooruitgang die mogelijk is gemaakt door grootschalige voorafgaande training en supervised fine-tuning (SFT), worden deze modellen geconfronteerd met twee fundamentele uitdagingen: (i) de schaarste en hoge kosten van grootschalige, door mensen bediende robottrajecten die nodig zijn voor het schalen van SFT, en (ii) beperkte generalisatie naar taken waarbij sprake is van distributieverschuiving. Recente doorbraken in Large Reasoning Models (LRMs) tonen aan dat reinforcement learning (RL) de stap-voor-stap redeneervaardigheden aanzienlijk kan verbeteren, wat de vraag oproept: Kan RL op vergelijkbare wijze de langetermijn stap-voor-stap actieplanning van VLA verbeteren? In dit werk introduceren we SimpleVLA-RL, een efficiënt RL-framework dat is toegesneden op VLA-modellen. Voortbouwend op veRL introduceren we VLA-specifieke trajectoriesteekproeven, schaalbare parallelisatie, multi-omgeving rendering en geoptimaliseerde verliesberekening. Wanneer toegepast op OpenVLA-OFT, behaalt SimpleVLA-RL state-of-the-art (SoTA) prestaties op LIBERO en overtreft het zelfs pi_0 op RoboTwin 1.0\&2.0 met de exploratieversterkende strategieën die we introduceren. SimpleVLA-RL vermindert niet alleen de afhankelijkheid van grootschalige data en maakt robuuste generalisatie mogelijk, maar overtreft SFT ook opmerkelijk in real-world taken. Bovendien identificeren we een nieuw fenomeen genaamd ``pushcut'' tijdens RL-training, waarbij het beleid eerder onzichtbare patronen ontdekt die verder gaan dan wat in het vorige trainingsproces is waargenomen. Github: https://github.com/PRIME-RL/SimpleVLA-RL
English
Vision-Language-Action (VLA) models have recently emerged as a powerful
paradigm for robotic manipulation. Despite substantial progress enabled by
large-scale pretraining and supervised fine-tuning (SFT), these models face two
fundamental challenges: (i) the scarcity and high cost of large-scale
human-operated robotic trajectories required for SFT scaling, and (ii) limited
generalization to tasks involving distribution shift. Recent breakthroughs in
Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can
dramatically enhance step-by-step reasoning capabilities, raising a natural
question: Can RL similarly improve the long-horizon step-by-step action
planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL
framework tailored for VLA models. Building upon veRL, we introduce
VLA-specific trajectory sampling, scalable parallelization, multi-environment
rendering, and optimized loss computation. When applied to OpenVLA-OFT,
SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms pi_0
on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce.
SimpleVLA-RL not only reduces dependence on large-scale data and enables robust
generalization, but also remarkably surpasses SFT in real-world tasks.
Moreover, we identify a novel phenomenon ``pushcut'' during RL training,
wherein the policy discovers previously unseen patterns beyond those seen in
the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL