RLinf-VLA: Een Uniform en Efficiënt Framework voor VLA+RL Training
RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
October 8, 2025
Auteurs: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
Samenvatting
Recente vooruitgang in visie- en taalbasismodellen heeft de multimodale begripsvorming, redenering en generatie aanzienlijk bevorderd, wat een groeiende interesse heeft gewekt in het uitbreiden van dergelijke mogelijkheden naar belichaamde omgevingen via visie-taal-actie (VLA)-modellen. Toch worden de meeste VLA-modellen nog steeds getraind met supervised fine-tuning (SFT), wat moeite heeft om te generaliseren onder distributieverschuivingen vanwege de opeenstapeling van fouten. Reinforcement learning (RL) biedt een veelbelovend alternatief door de taakprestatie direct te optimaliseren via interactie, maar bestaande pogingen blijven gefragmenteerd en missen een uniform platform voor een eerlijke en systematische vergelijking van modelarchitecturen en algoritmische ontwerpen. Om deze kloof te overbruggen, introduceren we RLinf-VLA, een uniform en efficiënt raamwerk voor schaalbare RL-training van VLA-modellen. Het systeem hanteert een zeer flexibel ontwerp voor resourceallocatie dat de uitdaging aanpakt van het integreren van rendering, training en inferentie in RL+VLA-training. In het bijzonder implementeert RLinf-VLA voor GPU-geparalleliseerde simulators een nieuwe hybride fijnmazige pijplijnallocatiemodus, wat een versnelling van 1,61x-1,88x in de training oplevert. Via een uniforme interface ondersteunt RLinf-VLA naadloos diverse VLA-architecturen (bijv. OpenVLA, OpenVLA-OFT), meerdere RL-algoritmen (bijv. PPO, GRPO) en verschillende simulators (bijv. ManiSkill, LIBERO). In simulatie behaalt een uniform model 98,11% op 130 LIBERO-taken en 97,66% op 25 ManiSkill-taken. Naast empirische prestaties destilleert onze studie een reeks best practices voor het toepassen van RL op VLA-training en werpt het licht op opkomende patronen in deze integratie. Bovendien presenteren we een eerste implementatie op een echte Franka-robot, waar RL-getrainde beleidsregels een sterkere generalisatie vertonen dan die getraind met SFT. Wij zien RLinf-VLA als een fundament om onderzoek naar belichaamde intelligentie te versnellen en te standaardiseren.
English
Recent progress in vision and language foundation models has significantly
advanced multimodal understanding, reasoning, and generation, inspiring a surge
of interest in extending such capabilities to embodied settings through
vision-language-action (VLA) models. Yet, most VLA models are still trained
with supervised fine-tuning (SFT), which struggles to generalize under
distribution shifts due to error accumulation. Reinforcement learning (RL)
offers a promising alternative by directly optimizing task performance through
interaction, but existing attempts remain fragmented and lack a unified
platform for fair and systematic comparison across model architectures and
algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and
efficient framework for scalable RL training of VLA models. The system adopts a
highly flexible resource allocation design that addresses the challenge of
integrating rendering, training, and inference in RL+VLA training. In
particular, for GPU-parallelized simulators, RLinf-VLA implements a novel
hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup
in training. Through a unified interface, RLinf-VLA seamlessly supports diverse
VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g.,
PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a
unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25
ManiSkill tasks. Beyond empirical performance, our study distills a set of best
practices for applying RL to VLA training and sheds light on emerging patterns
in this integration. Furthermore, we present preliminary deployment on a
real-world Franka robot, where RL-trained policies exhibit stronger
generalization than those trained with SFT. We envision RLinf-VLA as a
foundation to accelerate and standardize research on embodied intelligence.