SimpleVLA-RL : Mise à l'échelle de l'entraînement des VLA via l'apprentissage par renforcement

papers.abstract

Les modèles Vision-Langage-Action (VLA) ont récemment émergé comme un paradigme puissant pour la manipulation robotique. Malgré des progrès substantiels rendus possibles par le pré-entraînement à grande échelle et le réglage fin supervisé (SFT), ces modèles sont confrontés à deux défis fondamentaux : (i) la rareté et le coût élevé des trajectoires robotiques à grande échelle opérées par l'homme nécessaires pour l'extension du SFT, et (ii) une généralisation limitée aux tâches impliquant un décalage de distribution. Les récentes avancées dans les modèles de raisonnement à grande échelle (LRMs) démontrent que l'apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement étape par étape, soulevant une question naturelle : Le RL peut-il de même améliorer la planification d'actions étape par étape à long terme des VLA ? Dans ce travail, nous introduisons SimpleVLA-RL, un cadre RL efficace conçu pour les modèles VLA. En nous appuyant sur veRL, nous introduisons un échantillonnage de trajectoires spécifique aux VLA, une parallélisation scalable, un rendu multi-environnement et un calcul de perte optimisé. Appliqué à OpenVLA-OFT, SimpleVLA-RL atteint des performances de pointe sur LIBERO et surpasse même pi_0 sur RoboTwin 1.0\&2.0 avec les stratégies d'amélioration de l'exploration que nous introduisons. SimpleVLA-RL réduit non seulement la dépendance aux données à grande échelle et permet une généralisation robuste, mais surpasse également de manière remarquable le SFT dans les tâches du monde réel. De plus, nous identifions un nouveau phénomène appelé « pushcut » lors de l'entraînement RL, dans lequel la politique découvre des modèles précédemment invisibles au-delà de ceux observés dans le processus d'entraînement précédent. Github : https://github.com/PRIME-RL/SimpleVLA-RL

English

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can dramatically enhance step-by-step reasoning capabilities, raising a natural question: Can RL similarly improve the long-horizon step-by-step action planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL framework tailored for VLA models. Building upon veRL, we introduce VLA-specific trajectory sampling, scalable parallelization, multi-environment rendering, and optimized loss computation. When applied to OpenVLA-OFT, SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms pi_0 on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce. SimpleVLA-RL not only reduces dependence on large-scale data and enables robust generalization, but also remarkably surpasses SFT in real-world tasks. Moreover, we identify a novel phenomenon ``pushcut'' during RL training, wherein the policy discovers previously unseen patterns beyond those seen in the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL

SimpleVLA-RL : Mise à l'échelle de l'entraînement des VLA via l'apprentissage par renforcement

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

papers.abstract

Support