ChatPaper.aiChatPaper

π_RL: Online RL-afstemming voor stroomgebaseerde visie-taal-actie-modellen

π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

October 29, 2025
Auteurs: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI

Samenvatting

Vision-Language-Action (VLA)-modellen stellen robots in staat om complexe taken te begrijpen en uit te voeren op basis van multimodale invoer. Hoewel recent onderzoek het gebruik van reinforcement learning (RL) verkent om het arbeidsintensieve datacollectieproces bij het schalen van supervised fine-tuning (SFT) te automatiseren, blijft de toepassing van RL op grote schaal op flow-gebaseerde VLA's (bijv. pi_0, pi_{0,5}) een uitdaging vanwege onberekenbare actie-log-waarschijnlijkheden veroorzaakt door iteratieve ruisverwijdering. Wij pakken deze uitdaging aan met pi_{RL}, een open-source raamwerk voor het trainen van flow-gebaseerde VLA's in parallelle simulatie. pi_{RL} implementeert twee RL-algoritmen: (1) {Flow-Noise} modelleert het ruisverwijderingsproces als een MDP met discrete tijd en een leerbaar ruisnetwerk voor exacte log-waarschijnlijkheidsberekening. (2) {Flow-SDE} integreert ruisverwijdering met de interactie tussen agent en omgeving, en formuleert een MDP met twee lagen dat ODE-naar-SDE-conversie gebruikt voor efficiënte RL-exploratie. We evalueren pi_{RL} op de LIBERO- en ManiSkill-benchmarks. Op LIBERO verhoogt pi_{RL} de prestaties van few-shot SFT-modellen pi_0 en pi_{0,5} van respectievelijk 57,6% naar 97,6% en van 77,1% naar 98,3%. In ManiSkill trainen we pi_{RL} in 320 parallelle omgevingen, waarbij we pi_0 verbeteren van 41,6% naar 85,7% en pi_{0,5} van 40,0% naar 84,8% over 4352 pick-and-place taken, wat de schaalbaarheid van multitask-RL in heterogene simulatie aantoont. Over het geheel genomen behaalt pi_{RL} aanzienlijke prestatieverbeteringen en een sterkere generalisatie in vergelijking met SFT-modellen, wat de effectiviteit van online RL voor flow-gebaseerde VLA's bevestigt.
English
Vision-Language-Action (VLA) models enable robots to understand and perform complex tasks from multimodal input. Although recent work explores using reinforcement learning (RL) to automate the laborious data collection process in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action log-likelihoods from iterative denoising. We address this challenge with pi_{RL}, an open-source framework for training flow-based VLAs in parallel simulation. pi_{RL} implements two RL algorithms: (1) {Flow-Noise} models the denoising process as a discrete-time MDP with a learnable noise network for exact log-likelihood computation. (2) {Flow-SDE} integrates denoising with agent-environment interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for efficient RL exploration. We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO, pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6% to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to 85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks, demonstrating scalable multitask RL under heterogeneous simulation. Overall, pi_{RL} achieves significant performance gains and stronger generalization over SFT-models, validating the effectiveness of online RL for flow-based VLAs.
PDF634December 2, 2025