RLinf-VLA : Un Cadre Unifié et Efficace pour l'Entraînement VLA+RL

papers.abstract

Les progrès récents dans les modèles de base pour la vision et le langage ont considérablement fait avancer la compréhension, le raisonnement et la génération multimodaux, suscitant un intérêt croissant pour l'extension de ces capacités à des environnements incarnés grâce aux modèles vision-langage-action (VLA). Cependant, la plupart des modèles VLA sont encore entraînés par un ajustement supervisé (SFT), qui peine à généraliser face aux décalages de distribution en raison de l'accumulation d'erreurs. L'apprentissage par renforcement (RL) offre une alternative prometteuse en optimisant directement la performance des tâches par l'interaction, mais les tentatives existantes restent fragmentées et manquent d'une plateforme unifiée pour une comparaison équitable et systématique entre les architectures de modèles et les conceptions algorithmiques. Pour combler cette lacune, nous introduisons RLinf-VLA, un cadre unifié et efficace pour l'entraînement scalable des modèles VLA par RL. Le système adopte une conception flexible d'allocation des ressources qui relève le défi d'intégrer le rendu, l'entraînement et l'inférence dans l'entraînement RL+VLA. En particulier, pour les simulateurs parallélisés sur GPU, RLinf-VLA met en œuvre un nouveau mode d'allocation hybride à granularité fine, permettant une accélération de l'entraînement de 1,61x à 1,88x. Grâce à une interface unifiée, RLinf-VLA prend en charge de manière transparente diverses architectures VLA (par exemple, OpenVLA, OpenVLA-OFT), plusieurs algorithmes RL (par exemple, PPO, GRPO) et divers simulateurs (par exemple, ManiSkill, LIBERO). En simulation, un modèle unifié atteint 98,11 % sur 130 tâches LIBERO et 97,66 % sur 25 tâches ManiSkill. Au-delà des performances empiriques, notre étude dégage un ensemble de meilleures pratiques pour appliquer le RL à l'entraînement VLA et met en lumière les tendances émergentes dans cette intégration. De plus, nous présentons un déploiement préliminaire sur un robot Franka réel, où les politiques entraînées par RL montrent une meilleure généralisation que celles entraînées par SFT. Nous envisageons RLinf-VLA comme une base pour accélérer et standardiser la recherche sur l'intelligence incarnée.

English

Recent progress in vision and language foundation models has significantly advanced multimodal understanding, reasoning, and generation, inspiring a surge of interest in extending such capabilities to embodied settings through vision-language-action (VLA) models. Yet, most VLA models are still trained with supervised fine-tuning (SFT), which struggles to generalize under distribution shifts due to error accumulation. Reinforcement learning (RL) offers a promising alternative by directly optimizing task performance through interaction, but existing attempts remain fragmented and lack a unified platform for fair and systematic comparison across model architectures and algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and efficient framework for scalable RL training of VLA models. The system adopts a highly flexible resource allocation design that addresses the challenge of integrating rendering, training, and inference in RL+VLA training. In particular, for GPU-parallelized simulators, RLinf-VLA implements a novel hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup in training. Through a unified interface, RLinf-VLA seamlessly supports diverse VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g., PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25 ManiSkill tasks. Beyond empirical performance, our study distills a set of best practices for applying RL to VLA training and sheds light on emerging patterns in this integration. Furthermore, we present preliminary deployment on a real-world Franka robot, where RL-trained policies exhibit stronger generalization than those trained with SFT. We envision RLinf-VLA as a foundation to accelerate and standardize research on embodied intelligence.

RLinf-VLA : Un Cadre Unifié et Efficace pour l'Entraînement VLA+RL

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

papers.abstract

Support