ChatPaper.aiChatPaper

π_RL: フローベースの視覚-言語-行動モデルに対するオンライン強化学習ファインチューニング

π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

October 29, 2025
著者: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI

要旨

視覚言語行動(VLA)モデルは、ロボットがマルチモーダル入力から複雑なタスクを理解し遂行することを可能にする。近年の研究では、教師ありファインチューニング(SFT)のスケーリングにおける煩雑なデータ収集プロセスを自動化するため、強化学習(RL)の活用が探求されているが、フローベースVLA(例:π₀、π₀.₅)への大規模RL適用は、反復的ノイズ除去による扱い難い行動対数尤度が原因で依然として困難である。 我々はこの課題を、並列シミュレーションでフローベースVLAを訓練するオープンソースフレームワークπ_RLによって解決する。π_RLは2つのRLアルゴリズムを実装する:(1)**Flow-Noise**は、ノイズ除去プロセスを離散時間MDPとしてモデル化し、学習可能なノイズネットワークによる正確な対数尤度計算を実現する。(2)**Flow-SDE**は、ノイズ除去とエージェント-環境相互作用を統合し、効率的なRL探索のためODE-to-SDE変換を採用する二層MDPを定式化する。 π_RLをLIBEROおよびManiSkillベンチマークで評価した。LIBEROでは、π_RLは少数ショットSFTモデルπ₀を57.6%から97.6%に、π₀.₅を77.1%から98.3%にそれぞれ向上させた。ManiSkillでは、320の並列環境でπ_RLを訓練し、4352のピックアンドプレースタスクにおいてπ₀を41.6%から85.7%に、π₀.₅を40.0%から84.8%に改善し、異種シミュレーション下でのスケーラブルなマルチタスクRLを実証した。 全体として、π_RLはSFTモデルを大幅に上回る性能向上と強力な一般化を達成し、フローベースVLAに対するオンラインRLの有効性を立証した。
English
Vision-Language-Action (VLA) models enable robots to understand and perform complex tasks from multimodal input. Although recent work explores using reinforcement learning (RL) to automate the laborious data collection process in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action log-likelihoods from iterative denoising. We address this challenge with pi_{RL}, an open-source framework for training flow-based VLAs in parallel simulation. pi_{RL} implements two RL algorithms: (1) {Flow-Noise} models the denoising process as a discrete-time MDP with a learnable noise network for exact log-likelihood computation. (2) {Flow-SDE} integrates denoising with agent-environment interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for efficient RL exploration. We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO, pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6% to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to 85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks, demonstrating scalable multitask RL under heterogeneous simulation. Overall, pi_{RL} achieves significant performance gains and stronger generalization over SFT-models, validating the effectiveness of online RL for flow-based VLAs.
PDF634December 2, 2025