ChatPaper.aiChatPaper

SimpleVLA-RL: Schaalbaarheid van VLA-training via Reinforcement Learning

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

September 11, 2025
Auteurs: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding
cs.AI

Samenvatting

Vision-Language-Action (VLA)-modellen zijn recent naar voren gekomen als een krachtig paradigma voor robotmanipulatie. Ondanks aanzienlijke vooruitgang die mogelijk is gemaakt door grootschalige voorafgaande training en supervised fine-tuning (SFT), worden deze modellen geconfronteerd met twee fundamentele uitdagingen: (i) de schaarste en hoge kosten van grootschalige, door mensen bediende robottrajecten die nodig zijn voor het schalen van SFT, en (ii) beperkte generalisatie naar taken waarbij sprake is van distributieverschuiving. Recente doorbraken in Large Reasoning Models (LRMs) tonen aan dat reinforcement learning (RL) de stap-voor-stap redeneervaardigheden aanzienlijk kan verbeteren, wat de vraag oproept: Kan RL op vergelijkbare wijze de langetermijn stap-voor-stap actieplanning van VLA verbeteren? In dit werk introduceren we SimpleVLA-RL, een efficiënt RL-framework dat is toegesneden op VLA-modellen. Voortbouwend op veRL introduceren we VLA-specifieke trajectoriesteekproeven, schaalbare parallelisatie, multi-omgeving rendering en geoptimaliseerde verliesberekening. Wanneer toegepast op OpenVLA-OFT, behaalt SimpleVLA-RL state-of-the-art (SoTA) prestaties op LIBERO en overtreft het zelfs pi_0 op RoboTwin 1.0\&2.0 met de exploratieversterkende strategieën die we introduceren. SimpleVLA-RL vermindert niet alleen de afhankelijkheid van grootschalige data en maakt robuuste generalisatie mogelijk, maar overtreft SFT ook opmerkelijk in real-world taken. Bovendien identificeren we een nieuw fenomeen genaamd ``pushcut'' tijdens RL-training, waarbij het beleid eerder onzichtbare patronen ontdekt die verder gaan dan wat in het vorige trainingsproces is waargenomen. Github: https://github.com/PRIME-RL/SimpleVLA-RL
English
Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can dramatically enhance step-by-step reasoning capabilities, raising a natural question: Can RL similarly improve the long-horizon step-by-step action planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL framework tailored for VLA models. Building upon veRL, we introduce VLA-specific trajectory sampling, scalable parallelization, multi-environment rendering, and optimized loss computation. When applied to OpenVLA-OFT, SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms pi_0 on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce. SimpleVLA-RL not only reduces dependence on large-scale data and enables robust generalization, but also remarkably surpasses SFT in real-world tasks. Moreover, we identify a novel phenomenon ``pushcut'' during RL training, wherein the policy discovers previously unseen patterns beyond those seen in the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL
PDF782September 12, 2025