RLinf-VLA: Un Marco Unificado y Eficiente para el Entrenamiento de VLA+RL
RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
October 8, 2025
Autores: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI
Resumen
Los avances recientes en los modelos fundamentales de visión y lenguaje han impulsado significativamente la comprensión, el razonamiento y la generación multimodal, inspirando un creciente interés en extender estas capacidades a entornos corporizados a través de modelos de visión-lenguaje-acción (VLA). Sin embargo, la mayoría de los modelos VLA aún se entrenan con ajuste fino supervisado (SFT), que tiene dificultades para generalizar bajo cambios de distribución debido a la acumulación de errores. El aprendizaje por refuerzo (RL) ofrece una alternativa prometedora al optimizar directamente el rendimiento de la tarea mediante la interacción, pero los intentos existentes siguen siendo fragmentados y carecen de una plataforma unificada para una comparación justa y sistemática entre arquitecturas de modelos y diseños algorítmicos. Para abordar esta brecha, presentamos RLinf-VLA, un marco unificado y eficiente para el entrenamiento escalable de modelos VLA mediante RL. El sistema adopta un diseño de asignación de recursos altamente flexible que aborda el desafío de integrar la renderización, el entrenamiento y la inferencia en el entrenamiento RL+VLA. En particular, para simuladores paralelizados en GPU, RLinf-VLA implementa un novedoso modo de asignación de canalización híbrida de grano fino, logrando una aceleración de 1.61x-1.88x en el entrenamiento. A través de una interfaz unificada, RLinf-VLA admite de manera fluida diversas arquitecturas VLA (por ejemplo, OpenVLA, OpenVLA-OFT), múltiples algoritmos de RL (por ejemplo, PPO, GRPO) y varios simuladores (por ejemplo, ManiSkill, LIBERO). En simulación, un modelo unificado alcanza un 98.11% en 130 tareas de LIBERO y un 97.66% en 25 tareas de ManiSkill. Más allá del rendimiento empírico, nuestro estudio destila un conjunto de mejores prácticas para aplicar RL al entrenamiento VLA y arroja luz sobre patrones emergentes en esta integración. Además, presentamos un despliegue preliminar en un robot Franka del mundo real, donde las políticas entrenadas con RL muestran una mayor generalización que aquellas entrenadas con SFT. Visualizamos RLinf-VLA como una base para acelerar y estandarizar la investigación en inteligencia corporizada.
English
Recent progress in vision and language foundation models has significantly
advanced multimodal understanding, reasoning, and generation, inspiring a surge
of interest in extending such capabilities to embodied settings through
vision-language-action (VLA) models. Yet, most VLA models are still trained
with supervised fine-tuning (SFT), which struggles to generalize under
distribution shifts due to error accumulation. Reinforcement learning (RL)
offers a promising alternative by directly optimizing task performance through
interaction, but existing attempts remain fragmented and lack a unified
platform for fair and systematic comparison across model architectures and
algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and
efficient framework for scalable RL training of VLA models. The system adopts a
highly flexible resource allocation design that addresses the challenge of
integrating rendering, training, and inference in RL+VLA training. In
particular, for GPU-parallelized simulators, RLinf-VLA implements a novel
hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup
in training. Through a unified interface, RLinf-VLA seamlessly supports diverse
VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g.,
PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a
unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25
ManiSkill tasks. Beyond empirical performance, our study distills a set of best
practices for applying RL to VLA training and sheds light on emerging patterns
in this integration. Furthermore, we present preliminary deployment on a
real-world Franka robot, where RL-trained policies exhibit stronger
generalization than those trained with SFT. We envision RLinf-VLA as a
foundation to accelerate and standardize research on embodied intelligence.