ChatPaper.aiChatPaper

RLinf-VLA: Um Framework Unificado e Eficiente para Treinamento de VLA+RL

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

October 8, 2025
Autores: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
cs.AI

Resumo

Os recentes avanços em modelos de base para visão e linguagem têm impulsionado significativamente a compreensão, raciocínio e geração multimodal, inspirando um crescente interesse em estender tais capacidades para ambientes corporificados por meio de modelos visão-linguagem-ação (VLA). No entanto, a maioria dos modelos VLA ainda é treinada com ajuste fino supervisionado (SFT), que enfrenta dificuldades para generalizar sob mudanças de distribuição devido ao acúmulo de erros. O aprendizado por reforço (RL) oferece uma alternativa promissora ao otimizar diretamente o desempenho da tarefa por meio da interação, mas as tentativas existentes permanecem fragmentadas e carecem de uma plataforma unificada para comparação justa e sistemática entre arquiteturas de modelos e designs algorítmicos. Para preencher essa lacuna, introduzimos o RLinf-VLA, um framework unificado e eficiente para treinamento escalável de RL em modelos VLA. O sistema adota um design altamente flexível de alocação de recursos que aborda o desafio de integrar renderização, treinamento e inferência no treinamento RL+VLA. Em particular, para simuladores paralelizados em GPU, o RLinf-VLA implementa um novo modo híbrido de alocação de pipeline de granularidade fina, alcançando uma aceleração de 1,61x a 1,88x no treinamento. Por meio de uma interface unificada, o RLinf-VLA suporta de forma contínua diversas arquiteturas VLA (por exemplo, OpenVLA, OpenVLA-OFT), múltiplos algoritmos de RL (por exemplo, PPO, GRPO) e vários simuladores (por exemplo, ManiSkill, LIBERO). Em simulação, um modelo unificado alcança 98,11% em 130 tarefas do LIBERO e 97,66% em 25 tarefas do ManiSkill. Além do desempenho empírico, nosso estudo destila um conjunto de melhores práticas para aplicar RL ao treinamento VLA e lança luz sobre padrões emergentes nessa integração. Além disso, apresentamos uma implantação preliminar em um robô Franka do mundo real, onde políticas treinadas com RL exibem uma generalização mais forte do que aquelas treinadas com SFT. Enxergamos o RLinf-VLA como uma base para acelerar e padronizar a pesquisa em inteligência corporificada.
English
Recent progress in vision and language foundation models has significantly advanced multimodal understanding, reasoning, and generation, inspiring a surge of interest in extending such capabilities to embodied settings through vision-language-action (VLA) models. Yet, most VLA models are still trained with supervised fine-tuning (SFT), which struggles to generalize under distribution shifts due to error accumulation. Reinforcement learning (RL) offers a promising alternative by directly optimizing task performance through interaction, but existing attempts remain fragmented and lack a unified platform for fair and systematic comparison across model architectures and algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and efficient framework for scalable RL training of VLA models. The system adopts a highly flexible resource allocation design that addresses the challenge of integrating rendering, training, and inference in RL+VLA training. In particular, for GPU-parallelized simulators, RLinf-VLA implements a novel hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup in training. Through a unified interface, RLinf-VLA seamlessly supports diverse VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g., PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25 ManiSkill tasks. Beyond empirical performance, our study distills a set of best practices for applying RL to VLA training and sheds light on emerging patterns in this integration. Furthermore, we present preliminary deployment on a real-world Franka robot, where RL-trained policies exhibit stronger generalization than those trained with SFT. We envision RLinf-VLA as a foundation to accelerate and standardize research on embodied intelligence.
PDF362October 9, 2025