RLinf-VLA: Un Framework Unificato ed Efficiente per l'Addestramento di VLA+RL
RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
October 8, 2025
Autori: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
Abstract
I recenti progressi nei modelli di base per la visione e il linguaggio hanno significativamente avanzato la comprensione, il ragionamento e la generazione multimodale, ispirando un crescente interesse nell'estendere tali capacità a contesti incarnati attraverso modelli visione-linguaggio-azione (VLA). Tuttavia, la maggior parte dei modelli VLA è ancora addestrata con fine-tuning supervisionato (SFT), che fatica a generalizzare in caso di cambiamenti nella distribuzione a causa dell'accumulo di errori. L'apprendimento per rinforzo (RL) offre un'alternativa promettente ottimizzando direttamente le prestazioni del compito attraverso l'interazione, ma i tentativi esistenti rimangono frammentati e mancano di una piattaforma unificata per un confronto equo e sistematico tra architetture di modelli e design algoritmici. Per colmare questa lacuna, introduciamo RLinf-VLA, un framework unificato ed efficiente per l'addestramento scalabile RL di modelli VLA. Il sistema adotta un design altamente flessibile per l'allocazione delle risorse, affrontando la sfida di integrare rendering, addestramento e inferenza nell'addestramento RL+VLA. In particolare, per simulatori parallelizzati su GPU, RLinf-VLA implementa una nuova modalità ibrida di allocazione pipeline a grana fine, ottenendo un'accelerazione di 1,61x-1,88x nell'addestramento. Attraverso un'interfaccia unificata, RLinf-VLA supporta senza soluzione di continuità diverse architetture VLA (ad esempio, OpenVLA, OpenVLA-OFT), molteplici algoritmi RL (ad esempio, PPO, GRPO) e vari simulatori (ad esempio, ManiSkill, LIBERO). In simulazione, un modello unificato raggiunge il 98,11% su 130 task LIBERO e il 97,66% su 25 task ManiSkill. Oltre alle prestazioni empiriche, il nostro studio distilla una serie di migliori pratiche per applicare l'RL all'addestramento VLA e getta luce sui modelli emergenti in questa integrazione. Inoltre, presentiamo una prima implementazione su un robot Franka nel mondo reale, dove le politiche addestrate con RL mostrano una generalizzazione più forte rispetto a quelle addestrate con SFT. Prevediamo che RLinf-VLA possa fungere da fondamento per accelerare e standardizzare la ricerca sull'intelligenza incarnata.
English
Recent progress in vision and language foundation models has significantly
advanced multimodal understanding, reasoning, and generation, inspiring a surge
of interest in extending such capabilities to embodied settings through
vision-language-action (VLA) models. Yet, most VLA models are still trained
with supervised fine-tuning (SFT), which struggles to generalize under
distribution shifts due to error accumulation. Reinforcement learning (RL)
offers a promising alternative by directly optimizing task performance through
interaction, but existing attempts remain fragmented and lack a unified
platform for fair and systematic comparison across model architectures and
algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and
efficient framework for scalable RL training of VLA models. The system adopts a
highly flexible resource allocation design that addresses the challenge of
integrating rendering, training, and inference in RL+VLA training. In
particular, for GPU-parallelized simulators, RLinf-VLA implements a novel
hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup
in training. Through a unified interface, RLinf-VLA seamlessly supports diverse
VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g.,
PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a
unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25
ManiSkill tasks. Beyond empirical performance, our study distills a set of best
practices for applying RL to VLA training and sheds light on emerging patterns
in this integration. Furthermore, we present preliminary deployment on a
real-world Franka robot, where RL-trained policies exhibit stronger
generalization than those trained with SFT. We envision RLinf-VLA as a
foundation to accelerate and standardize research on embodied intelligence.