RLinf-VLA : Un Cadre Unifié et Efficace pour l'Entraînement VLA+RL
RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
October 8, 2025
papers.authors: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
papers.abstract
Les progrès récents dans les modèles de base pour la vision et le langage ont considérablement fait avancer la compréhension, le raisonnement et la génération multimodaux, suscitant un intérêt croissant pour l'extension de ces capacités à des environnements incarnés grâce aux modèles vision-langage-action (VLA). Cependant, la plupart des modèles VLA sont encore entraînés par un ajustement supervisé (SFT), qui peine à généraliser face aux décalages de distribution en raison de l'accumulation d'erreurs. L'apprentissage par renforcement (RL) offre une alternative prometteuse en optimisant directement la performance des tâches par l'interaction, mais les tentatives existantes restent fragmentées et manquent d'une plateforme unifiée pour une comparaison équitable et systématique entre les architectures de modèles et les conceptions algorithmiques. Pour combler cette lacune, nous introduisons RLinf-VLA, un cadre unifié et efficace pour l'entraînement scalable des modèles VLA par RL. Le système adopte une conception flexible d'allocation des ressources qui relève le défi d'intégrer le rendu, l'entraînement et l'inférence dans l'entraînement RL+VLA. En particulier, pour les simulateurs parallélisés sur GPU, RLinf-VLA met en œuvre un nouveau mode d'allocation hybride à granularité fine, permettant une accélération de l'entraînement de 1,61x à 1,88x. Grâce à une interface unifiée, RLinf-VLA prend en charge de manière transparente diverses architectures VLA (par exemple, OpenVLA, OpenVLA-OFT), plusieurs algorithmes RL (par exemple, PPO, GRPO) et divers simulateurs (par exemple, ManiSkill, LIBERO). En simulation, un modèle unifié atteint 98,11 % sur 130 tâches LIBERO et 97,66 % sur 25 tâches ManiSkill. Au-delà des performances empiriques, notre étude dégage un ensemble de meilleures pratiques pour appliquer le RL à l'entraînement VLA et met en lumière les tendances émergentes dans cette intégration. De plus, nous présentons un déploiement préliminaire sur un robot Franka réel, où les politiques entraînées par RL montrent une meilleure généralisation que celles entraînées par SFT. Nous envisageons RLinf-VLA comme une base pour accélérer et standardiser la recherche sur l'intelligence incarnée.
English
Recent progress in vision and language foundation models has significantly
advanced multimodal understanding, reasoning, and generation, inspiring a surge
of interest in extending such capabilities to embodied settings through
vision-language-action (VLA) models. Yet, most VLA models are still trained
with supervised fine-tuning (SFT), which struggles to generalize under
distribution shifts due to error accumulation. Reinforcement learning (RL)
offers a promising alternative by directly optimizing task performance through
interaction, but existing attempts remain fragmented and lack a unified
platform for fair and systematic comparison across model architectures and
algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and
efficient framework for scalable RL training of VLA models. The system adopts a
highly flexible resource allocation design that addresses the challenge of
integrating rendering, training, and inference in RL+VLA training. In
particular, for GPU-parallelized simulators, RLinf-VLA implements a novel
hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup
in training. Through a unified interface, RLinf-VLA seamlessly supports diverse
VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g.,
PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a
unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25
ManiSkill tasks. Beyond empirical performance, our study distills a set of best
practices for applying RL to VLA training and sheds light on emerging patterns
in this integration. Furthermore, we present preliminary deployment on a
real-world Franka robot, where RL-trained policies exhibit stronger
generalization than those trained with SFT. We envision RLinf-VLA as a
foundation to accelerate and standardize research on embodied intelligence.