π_RL: Ajuste Fino Online de RL para Modelos de Fluxo Visão-Linguagem-Ação
π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
October 29, 2025
Autores: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLA) permitem que robôs compreendam e executem tarefas complexas a partir de entrada multimodal. Embora trabalhos recentes explorem o uso de aprendizado por reforço (RL) para automatizar o laborioso processo de coleta de dados no dimensionamento do ajuste fino supervisionado (SFT), a aplicação de RL em larga escala a VLAs baseados em fluxo (por exemplo, pi_0, pi_{0,5}) permanece desafiadora devido às log-verossimilhanças de ação intratáveis provenientes da remoção iterativa de ruído.
Nós abordamos este desafio com pi_{RL}, uma estrutura de código aberto para treinar VLAs baseados em fluxo em simulação paralela. O pi_{RL} implementa dois algoritmos de RL: (1) {Flow-Noise} modela o processo de remoção de ruído como um MDP de tempo discreto com uma rede de ruído treinável para cálculo exato da log-verossimilhança. (2) {Flow-SDE} integra a remoção de ruído com a interação agente-ambiente, formulando um MDP de duas camadas que emprega conversão ODE-para-SDE para uma exploração de RL eficiente.
Avaliamos o pi_{RL} nos benchmarks LIBERO e ManiSkill. No LIBERO, o pi_{RL} aumenta os modelos SFT de poucas amostras pi_0 e pi_{0,5} de 57,6% para 97,6% e de 77,1% para 98,3%, respectivamente. No ManiSkill, treinamos o pi_{RL} em 320 ambientes paralelos, melhorando o pi_0 de 41,6% para 85,7% e o pi_{0,5} de 40,0% para 84,8% em 4352 tarefas de pegar e colocar, demonstrando RL multitarefa escalável sob simulação heterogênea.
No geral, o pi_{RL} alcança ganhos de desempenho significativos e generalização mais robusta em comparação com modelos SFT, validando a eficácia do RL online para VLAs baseados em fluxo.
English
Vision-Language-Action (VLA) models enable robots to understand and perform
complex tasks from multimodal input. Although recent work explores using
reinforcement learning (RL) to automate the laborious data collection process
in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based
VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action
log-likelihoods from iterative denoising.
We address this challenge with pi_{RL}, an open-source framework
for training flow-based VLAs in parallel simulation. pi_{RL}
implements two RL algorithms: (1) {Flow-Noise} models the denoising process as
a discrete-time MDP with a learnable noise network for exact log-likelihood
computation. (2) {Flow-SDE} integrates denoising with agent-environment
interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for
efficient RL exploration.
We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO,
pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6%
to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train
pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to
85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks,
demonstrating scalable multitask RL under heterogeneous simulation.
Overall, pi_{RL} achieves significant performance gains and
stronger generalization over SFT-models, validating the effectiveness of online
RL for flow-based VLAs.