RLinf-VLA: Un Marco Unificado y Eficiente para el Entrenamiento de VLA+RL

Resumen

Los avances recientes en los modelos fundamentales de visión y lenguaje han impulsado significativamente la comprensión, el razonamiento y la generación multimodal, inspirando un creciente interés en extender estas capacidades a entornos corporizados a través de modelos de visión-lenguaje-acción (VLA). Sin embargo, la mayoría de los modelos VLA aún se entrenan con ajuste fino supervisado (SFT), que tiene dificultades para generalizar bajo cambios de distribución debido a la acumulación de errores. El aprendizaje por refuerzo (RL) ofrece una alternativa prometedora al optimizar directamente el rendimiento de la tarea mediante la interacción, pero los intentos existentes siguen siendo fragmentados y carecen de una plataforma unificada para una comparación justa y sistemática entre arquitecturas de modelos y diseños algorítmicos. Para abordar esta brecha, presentamos RLinf-VLA, un marco unificado y eficiente para el entrenamiento escalable de modelos VLA mediante RL. El sistema adopta un diseño de asignación de recursos altamente flexible que aborda el desafío de integrar la renderización, el entrenamiento y la inferencia en el entrenamiento RL+VLA. En particular, para simuladores paralelizados en GPU, RLinf-VLA implementa un novedoso modo de asignación de canalización híbrida de grano fino, logrando una aceleración de 1.61x-1.88x en el entrenamiento. A través de una interfaz unificada, RLinf-VLA admite de manera fluida diversas arquitecturas VLA (por ejemplo, OpenVLA, OpenVLA-OFT), múltiples algoritmos de RL (por ejemplo, PPO, GRPO) y varios simuladores (por ejemplo, ManiSkill, LIBERO). En simulación, un modelo unificado alcanza un 98.11% en 130 tareas de LIBERO y un 97.66% en 25 tareas de ManiSkill. Más allá del rendimiento empírico, nuestro estudio destila un conjunto de mejores prácticas para aplicar RL al entrenamiento VLA y arroja luz sobre patrones emergentes en esta integración. Además, presentamos un despliegue preliminar en un robot Franka del mundo real, donde las políticas entrenadas con RL muestran una mayor generalización que aquellas entrenadas con SFT. Visualizamos RLinf-VLA como una base para acelerar y estandarizar la investigación en inteligencia corporizada.

English

Recent progress in vision and language foundation models has significantly advanced multimodal understanding, reasoning, and generation, inspiring a surge of interest in extending such capabilities to embodied settings through vision-language-action (VLA) models. Yet, most VLA models are still trained with supervised fine-tuning (SFT), which struggles to generalize under distribution shifts due to error accumulation. Reinforcement learning (RL) offers a promising alternative by directly optimizing task performance through interaction, but existing attempts remain fragmented and lack a unified platform for fair and systematic comparison across model architectures and algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and efficient framework for scalable RL training of VLA models. The system adopts a highly flexible resource allocation design that addresses the challenge of integrating rendering, training, and inference in RL+VLA training. In particular, for GPU-parallelized simulators, RLinf-VLA implements a novel hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup in training. Through a unified interface, RLinf-VLA seamlessly supports diverse VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g., PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25 ManiSkill tasks. Beyond empirical performance, our study distills a set of best practices for applying RL to VLA training and sheds light on emerging patterns in this integration. Furthermore, we present preliminary deployment on a real-world Franka robot, where RL-trained policies exhibit stronger generalization than those trained with SFT. We envision RLinf-VLA as a foundation to accelerate and standardize research on embodied intelligence.

RLinf-VLA: Un Marco Unificado y Eficiente para el Entrenamiento de VLA+RL

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

Resumen

Support