ChatPaper.aiChatPaper

π_RL: Online-Feinabstimmung mittels Reinforcement Learning für flussbasierte Vision-Sprache-Handlung-Modelle

π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

October 29, 2025
papers.authors: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI

papers.abstract

Vision-Language-Action (VLA)-Modelle ermöglichen es Robotern, komplexe Aufgaben aus multimodalen Eingaben zu verstehen und auszuführen. Obwohl aktuelle Forschungsarbeiten den Einsatz von Reinforcement Learning (RL) zur Automatisierung des aufwändigen Datensammlungsprozesses beim Skalieren von Supervised Fine-Tuning (SFT) untersuchen, bleibt die Anwendung von RL in großem Maßstab auf flussbasierte VLA-Modelle (z.B. π₀, π₀.₅) aufgrund nicht handhabbarer Aktions-Log-Likelihoods aus iterativer Entrauschung eine Herausforderung. Wir begegnen dieser Herausforderung mit π_RL, einem Open-Source-Framework für das Training flussbasierter VLA-Modelle in paralleler Simulation. π_RL implementiert zwei RL-Algorithmen: (1) *Flow-Noise* modelliert den Entrauschungsprozess als diskretes MDP mit einem erlernbaren Rausch-Netzwerk zur exakten Log-Likelihood-Berechnung. (2) *Flow-SDE* integriert Entrauschung mit der Agenten-Umgebungs-Interaktion, formuliert ein zweischichtiges MDP und nutzt ODE-zu-SDE-Konvertierung für effiziente RL-Exploration. Wir evaluieren π_RL anhand der LIBERO- und ManiSkill-Benchmarks. Auf LIBERO steigert π_RL die Few-Shot-SFT-Modelle π₀ und π₀.₅ von 57,6 % auf 97,6 % bzw. von 77,1 % auf 98,3 %. In ManiSkill trainieren wir π_RL in 320 parallelen Umgebungen und verbessern π₀ von 41,6 % auf 85,7 % und π₀.₅ von 40,0 % auf 84,8 % über 4352 Pick-and-Place-Aufgaben hinweg, was skalierbares Multitask-RL unter heterogener Simulation demonstriert. Insgesamt erzielt π_RL signifikante Leistungssteigerungen und eine stärkere Generalisierung gegenüber SFT-Modellen und validiert so die Wirksamkeit von Online-RL für flussbasierte VLA-Modelle.
English
Vision-Language-Action (VLA) models enable robots to understand and perform complex tasks from multimodal input. Although recent work explores using reinforcement learning (RL) to automate the laborious data collection process in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action log-likelihoods from iterative denoising. We address this challenge with pi_{RL}, an open-source framework for training flow-based VLAs in parallel simulation. pi_{RL} implements two RL algorithms: (1) {Flow-Noise} models the denoising process as a discrete-time MDP with a learnable noise network for exact log-likelihood computation. (2) {Flow-SDE} integrates denoising with agent-environment interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for efficient RL exploration. We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO, pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6% to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to 85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks, demonstrating scalable multitask RL under heterogeneous simulation. Overall, pi_{RL} achieves significant performance gains and stronger generalization over SFT-models, validating the effectiveness of online RL for flow-based VLAs.
PDF664February 7, 2026