SimpleVLA-RL : Mise à l'échelle de l'entraînement des VLA via l'apprentissage par renforcement
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
September 11, 2025
papers.authors: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) ont récemment émergé comme un paradigme puissant pour la manipulation robotique. Malgré des progrès substantiels rendus possibles par le pré-entraînement à grande échelle et le réglage fin supervisé (SFT), ces modèles sont confrontés à deux défis fondamentaux : (i) la rareté et le coût élevé des trajectoires robotiques à grande échelle opérées par l'homme nécessaires pour l'extension du SFT, et (ii) une généralisation limitée aux tâches impliquant un décalage de distribution. Les récentes avancées dans les modèles de raisonnement à grande échelle (LRMs) démontrent que l'apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement étape par étape, soulevant une question naturelle : Le RL peut-il de même améliorer la planification d'actions étape par étape à long terme des VLA ? Dans ce travail, nous introduisons SimpleVLA-RL, un cadre RL efficace conçu pour les modèles VLA. En nous appuyant sur veRL, nous introduisons un échantillonnage de trajectoires spécifique aux VLA, une parallélisation scalable, un rendu multi-environnement et un calcul de perte optimisé. Appliqué à OpenVLA-OFT, SimpleVLA-RL atteint des performances de pointe sur LIBERO et surpasse même pi_0 sur RoboTwin 1.0\&2.0 avec les stratégies d'amélioration de l'exploration que nous introduisons. SimpleVLA-RL réduit non seulement la dépendance aux données à grande échelle et permet une généralisation robuste, mais surpasse également de manière remarquable le SFT dans les tâches du monde réel. De plus, nous identifions un nouveau phénomène appelé « pushcut » lors de l'entraînement RL, dans lequel la politique découvre des modèles précédemment invisibles au-delà de ceux observés dans le processus d'entraînement précédent. Github : https://github.com/PRIME-RL/SimpleVLA-RL
English
Vision-Language-Action (VLA) models have recently emerged as a powerful
paradigm for robotic manipulation. Despite substantial progress enabled by
large-scale pretraining and supervised fine-tuning (SFT), these models face two
fundamental challenges: (i) the scarcity and high cost of large-scale
human-operated robotic trajectories required for SFT scaling, and (ii) limited
generalization to tasks involving distribution shift. Recent breakthroughs in
Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can
dramatically enhance step-by-step reasoning capabilities, raising a natural
question: Can RL similarly improve the long-horizon step-by-step action
planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL
framework tailored for VLA models. Building upon veRL, we introduce
VLA-specific trajectory sampling, scalable parallelization, multi-environment
rendering, and optimized loss computation. When applied to OpenVLA-OFT,
SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms pi_0
on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce.
SimpleVLA-RL not only reduces dependence on large-scale data and enables robust
generalization, but also remarkably surpasses SFT in real-world tasks.
Moreover, we identify a novel phenomenon ``pushcut'' during RL training,
wherein the policy discovers previously unseen patterns beyond those seen in
the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL