ChatPaper.aiChatPaper

π_RL: Fine-tuning Online RL per Modelli Flusso-Based Visione-Linguaggio-Azione

π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

October 29, 2025
Autori: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI

Abstract

I modelli Vision-Language-Action (VLA) consentono ai robot di comprendere ed eseguire compiti complessi a partire da input multimodali. Sebbene lavori recenti esplorino l'uso dell'apprendimento per rinforzo (RL) per automatizzare il laborioso processo di raccolta dati nel ridimensionamento della messa a punto supervisionata (SFT), l'applicazione dell'RL su larga scala ai VLA basati su flussi (ad es. π₀, π₀.₅) rimane impegnativa a causa delle intrattabili log-verosimiglianze delle azioni derivanti dalla rimozione iterativa del rumore. Affrontiamo questa sfida con π_RL, un framework open-source per l'addestramento di VLA basati su flussi in simulazione parallela. π_RL implementa due algoritmi di RL: (1) *Flow-Noise* modella il processo di rimozione del rumore come un MDP a tempo discreto con una rete del rumore apprendibile per il calcolo esatto della log-verosimiglianza. (2) *Flow-SDE* integra la rimozione del rumore con l'interazione agente-ambiente, formulando un MDP a due livelli che impiega la conversione da ODE a SDE per un'esplorazione RL efficiente. Valutiamo π_RL sui benchmark LIBERO e ManiSkill. Su LIBERO, π_RL migliora i modelli SFT few-shot π₀ e π₀.₅ rispettivamente dal 57.6% al 97.6% e dal 77.1% al 98.3%. In ManiSkill, addestriamo π_RL in 320 ambienti paralleli, migliorando π₀ dal 41.6% all'85.7% e π₀.₅ dal 40.0% all'84.8% su 4352 compiti di pick-and-place, dimostrando un RL multitask scalabile in condizioni di simulazione eterogenea. Nel complesso, π_RL raggiunge significativi miglioramenti delle prestazioni e una generalizzazione più robusta rispetto ai modelli SFT, validando l'efficacia dell'RL online per i VLA basati su flussi.
English
Vision-Language-Action (VLA) models enable robots to understand and perform complex tasks from multimodal input. Although recent work explores using reinforcement learning (RL) to automate the laborious data collection process in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action log-likelihoods from iterative denoising. We address this challenge with pi_{RL}, an open-source framework for training flow-based VLAs in parallel simulation. pi_{RL} implements two RL algorithms: (1) {Flow-Noise} models the denoising process as a discrete-time MDP with a learnable noise network for exact log-likelihood computation. (2) {Flow-SDE} integrates denoising with agent-environment interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for efficient RL exploration. We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO, pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6% to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to 85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks, demonstrating scalable multitask RL under heterogeneous simulation. Overall, pi_{RL} achieves significant performance gains and stronger generalization over SFT-models, validating the effectiveness of online RL for flow-based VLAs.
PDF634December 2, 2025