ChatPaper.aiChatPaper

RLinf-VLA: Een Uniform en Efficiënt Framework voor VLA+RL Training

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

October 8, 2025
Auteurs: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI

Samenvatting

Recente vooruitgang in visie- en taalbasismodellen heeft de multimodale begripsvorming, redenering en generatie aanzienlijk bevorderd, wat een groeiende interesse heeft gewekt in het uitbreiden van dergelijke mogelijkheden naar belichaamde omgevingen via visie-taal-actie (VLA)-modellen. Toch worden de meeste VLA-modellen nog steeds getraind met supervised fine-tuning (SFT), wat moeite heeft om te generaliseren onder distributieverschuivingen vanwege de opeenstapeling van fouten. Reinforcement learning (RL) biedt een veelbelovend alternatief door de taakprestatie direct te optimaliseren via interactie, maar bestaande pogingen blijven gefragmenteerd en missen een uniform platform voor een eerlijke en systematische vergelijking van modelarchitecturen en algoritmische ontwerpen. Om deze kloof te overbruggen, introduceren we RLinf-VLA, een uniform en efficiënt raamwerk voor schaalbare RL-training van VLA-modellen. Het systeem hanteert een zeer flexibel ontwerp voor resourceallocatie dat de uitdaging aanpakt van het integreren van rendering, training en inferentie in RL+VLA-training. In het bijzonder implementeert RLinf-VLA voor GPU-geparalleliseerde simulators een nieuwe hybride fijnmazige pijplijnallocatiemodus, wat een versnelling van 1,61x-1,88x in de training oplevert. Via een uniforme interface ondersteunt RLinf-VLA naadloos diverse VLA-architecturen (bijv. OpenVLA, OpenVLA-OFT), meerdere RL-algoritmen (bijv. PPO, GRPO) en verschillende simulators (bijv. ManiSkill, LIBERO). In simulatie behaalt een uniform model 98,11% op 130 LIBERO-taken en 97,66% op 25 ManiSkill-taken. Naast empirische prestaties destilleert onze studie een reeks best practices voor het toepassen van RL op VLA-training en werpt het licht op opkomende patronen in deze integratie. Bovendien presenteren we een eerste implementatie op een echte Franka-robot, waar RL-getrainde beleidsregels een sterkere generalisatie vertonen dan die getraind met SFT. Wij zien RLinf-VLA als een fundament om onderzoek naar belichaamde intelligentie te versnellen en te standaardiseren.
English
Recent progress in vision and language foundation models has significantly advanced multimodal understanding, reasoning, and generation, inspiring a surge of interest in extending such capabilities to embodied settings through vision-language-action (VLA) models. Yet, most VLA models are still trained with supervised fine-tuning (SFT), which struggles to generalize under distribution shifts due to error accumulation. Reinforcement learning (RL) offers a promising alternative by directly optimizing task performance through interaction, but existing attempts remain fragmented and lack a unified platform for fair and systematic comparison across model architectures and algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and efficient framework for scalable RL training of VLA models. The system adopts a highly flexible resource allocation design that addresses the challenge of integrating rendering, training, and inference in RL+VLA training. In particular, for GPU-parallelized simulators, RLinf-VLA implements a novel hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup in training. Through a unified interface, RLinf-VLA seamlessly supports diverse VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g., PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25 ManiSkill tasks. Beyond empirical performance, our study distills a set of best practices for applying RL to VLA training and sheds light on emerging patterns in this integration. Furthermore, we present preliminary deployment on a real-world Franka robot, where RL-trained policies exhibit stronger generalization than those trained with SFT. We envision RLinf-VLA as a foundation to accelerate and standardize research on embodied intelligence.
PDF362October 9, 2025