RLinf-VLA: Ein einheitliches und effizientes Framework für VLA+RL-Training
RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
October 8, 2025
papers.authors: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
papers.abstract
Jüngste Fortschritte in Vision- und Sprach-Foundation-Modellen haben das multimodale Verständnis, die Schlussfolgerung und die Generierung erheblich vorangetrieben, was ein verstärktes Interesse an der Erweiterung solcher Fähigkeiten auf verkörperte Umgebungen durch Vision-Language-Action (VLA)-Modelle geweckt hat. Dennoch werden die meisten VLA-Modelle weiterhin mit überwachtem Feinabgleich (Supervised Fine-Tuning, SFT) trainiert, der aufgrund von Fehlerakkumulation Schwierigkeiten hat, bei Verteilungsverschiebungen zu generalisieren. Reinforcement Learning (RL) bietet eine vielversprechende Alternative, indem es die Aufgabenleistung direkt durch Interaktion optimiert, aber bestehende Ansätze bleiben fragmentiert und es fehlt eine einheitliche Plattform für einen fairen und systematischen Vergleich von Modellarchitekturen und algorithmischen Designs. Um diese Lücke zu schließen, stellen wir RLinf-VLA vor, ein einheitliches und effizientes Framework für skalierbares RL-Training von VLA-Modellen. Das System verwendet ein hochflexibles Ressourcenzuweisungsdesign, das die Herausforderung der Integration von Rendering, Training und Inferenz im RL+VLA-Training adressiert. Insbesondere für GPU-parallelisierte Simulatoren implementiert RLinf-VLA einen neuartigen hybriden Fein-Granularitäts-Pipeline-Zuweisungsmodus, der eine Beschleunigung des Trainings um das 1,61- bis 1,88-fache erreicht. Durch eine einheitliche Schnittstelle unterstützt RLinf-VLA nahtlos diverse VLA-Architekturen (z.B. OpenVLA, OpenVLA-OFT), mehrere RL-Algorithmen (z.B. PPO, GRPO) und verschiedene Simulatoren (z.B. ManiSkill, LIBERO). In der Simulation erreicht ein einheitliches Modell 98,11 % über 130 LIBERO-Aufgaben und 97,66 % über 25 ManiSkill-Aufgaben. Neben der empirischen Leistung destilliert unsere Studie eine Reihe von Best Practices für die Anwendung von RL auf das VLA-Training und beleuchtet aufkommende Muster in dieser Integration. Darüber hinaus präsentieren wir eine vorläufige Bereitstellung auf einem realen Franka-Roboter, bei dem RL-trainierte Strategien eine stärkere Generalisierung zeigen als solche, die mit SFT trainiert wurden. Wir sehen RLinf-VLA als Grundlage, um die Forschung zu verkörperter Intelligenz zu beschleunigen und zu standardisieren.
English
Recent progress in vision and language foundation models has significantly
advanced multimodal understanding, reasoning, and generation, inspiring a surge
of interest in extending such capabilities to embodied settings through
vision-language-action (VLA) models. Yet, most VLA models are still trained
with supervised fine-tuning (SFT), which struggles to generalize under
distribution shifts due to error accumulation. Reinforcement learning (RL)
offers a promising alternative by directly optimizing task performance through
interaction, but existing attempts remain fragmented and lack a unified
platform for fair and systematic comparison across model architectures and
algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and
efficient framework for scalable RL training of VLA models. The system adopts a
highly flexible resource allocation design that addresses the challenge of
integrating rendering, training, and inference in RL+VLA training. In
particular, for GPU-parallelized simulators, RLinf-VLA implements a novel
hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup
in training. Through a unified interface, RLinf-VLA seamlessly supports diverse
VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g.,
PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a
unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25
ManiSkill tasks. Beyond empirical performance, our study distills a set of best
practices for applying RL to VLA training and sheds light on emerging patterns
in this integration. Furthermore, we present preliminary deployment on a
real-world Franka robot, where RL-trained policies exhibit stronger
generalization than those trained with SFT. We envision RLinf-VLA as a
foundation to accelerate and standardize research on embodied intelligence.