π_RL: Ajuste Fino en Línea de RL para Modelos de Flujo Visión-Lenguaje-Acción
π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
October 29, 2025
Autores: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) permiten a los robots comprender y ejecutar tareas complejas a partir de entradas multimodales. Si bien trabajos recientes exploran el uso de aprendizaje por refuerzo (RL) para automatizar la laboriosa recolección de datos en el escalado del ajuste fino supervisado (SFT), aplicar RL a gran escala a VLAs basados en flujos (por ejemplo, pi_0, pi_{0.5}) sigue siendo un desafío debido a la intratabilidad de las log-verosimilitudes de las acciones resultantes de la eliminación iterativa de ruido.
Abordamos este desafío con pi_{RL}, un framework de código abierto para entrenar VLAs basados en flujos en simulación paralela. pi_{RL} implementa dos algoritmos de RL: (1) {Flow-Noise} modela el proceso de eliminación de ruido como un MDP de tiempo discreto con una red de ruido entrenable para el cálculo exacto de la log-verosimilitud. (2) {Flow-SDE} integra la eliminación de ruido con la interacción agente-entorno, formulando un MDP de dos capas que emplea la conversión ODE-a-SDE para una exploración eficiente en RL.
Evaluamos pi_{RL} en los benchmarks LIBERO y ManiSkill. En LIBERO, pi_{RL} aumenta el rendimiento de los modelos de SFT con pocos ejemplos, pi_0 y pi_{0.5}, del 57.6% al 97.6% y del 77.1% al 98.3%, respectivamente. En ManiSkill, entrenamos pi_{RL} en 320 entornos paralelos, mejorando pi_0 del 41.6% al 85.7% y pi_{0.5} del 40.0% al 84.8% en 4352 tareas de recoger y colocar, demostrando RL multitarea escalable bajo simulación heterogénea.
En general, pi_{RL} logra ganancias significativas de rendimiento y una generalización más robusta en comparación con los modelos de SFT, validando la efectividad del RL en línea para los VLAs basados en flujos.
English
Vision-Language-Action (VLA) models enable robots to understand and perform
complex tasks from multimodal input. Although recent work explores using
reinforcement learning (RL) to automate the laborious data collection process
in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based
VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action
log-likelihoods from iterative denoising.
We address this challenge with pi_{RL}, an open-source framework
for training flow-based VLAs in parallel simulation. pi_{RL}
implements two RL algorithms: (1) {Flow-Noise} models the denoising process as
a discrete-time MDP with a learnable noise network for exact log-likelihood
computation. (2) {Flow-SDE} integrates denoising with agent-environment
interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for
efficient RL exploration.
We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO,
pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6%
to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train
pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to
85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks,
demonstrating scalable multitask RL under heterogeneous simulation.
Overall, pi_{RL} achieves significant performance gains and
stronger generalization over SFT-models, validating the effectiveness of online
RL for flow-based VLAs.