π_RL: 흐름 기반 시각-언어-행동 모델을 위한 온라인 RL 미세 조정
π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
October 29, 2025
저자: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI
초록
비전-언어-행동(Vision-Language-Action, VLA) 모델은 로봇이 다중 모드 입력을 통해 복잡한 작업을 이해하고 수행할 수 있게 합니다. 최근 연구에서는 지도 미세 조정(Supervised Fine-Tuning, SFT)의 규모 확장 시 수반되는 노동 집약적 데이터 수집 과정을 자동화하기 위해 강화 학습(Reinforcement Learning, RL)을 활용하는 방안을 탐구하고 있으나, 반복적 노이즈 제거 과정에서 발생하는 계산 불가능한 행동 로그 가능도로 인해 흐름 기반 VLA(예: π_0, π_{0.5})에 대규모 RL을 적용하는 것은 여전히 어려운 과제입니다.
본 연구는 이러한 과제를 pi_{RL}로 해결합니다. pi_{RL}은 병렬 시뮬레이션 환경에서 흐름 기반 VLA를 훈련하기 위한 오픈소스 프레임워크로, 두 가지 RL 알고리즘을 구현합니다: (1) **Flow-Noise**는 노이즈 제거 과정을 이산 시간 MDP로 모델링하고 학습 가능한 노이즈 네트워크를 통해 정확한 로그 가능도 계산을 수행합니다. (2) **Flow-SDE**는 노이즈 제거 과정을 에이전트-환경 상호작용과 통합하여, 효율적인 RL 탐사를 위해 ODE-to-SDE 변환을 활용하는 두 계층 MDP를 구성합니다.
우리는 pi_{RL}을 LIBERO 및 ManiSkill 벤치마크에서 평가했습니다. LIBERO에서 pi_{RL}은 소수 샷 SFT 모델 π_0과 π_{0.5}의 성능을 각각 57.6%에서 97.6%로, 77.1%에서 98.3%로 크게 향상시켰습니다. ManiSkill에서는 320개의 병렬 환경에서 pi_{RL}을 훈련하여, 4352개의 피크-앤-플레이스 작업에 대해 π_0의 성능을 41.6%에서 85.7%로, π_{0.5}의 성능을 40.0%에서 84.8%로 개선하였으며, 이질적 시뮬레이션 하에서 확장 가능한 다중 작업 RL의 가능성을 입증했습니다.
전체적으로, pi_{RL}은 SFT 모델 대비显著的한 성능 향상과 더 강력한 일반화 능력을 달성하여, 흐름 기반 VLA에 대한 온라인 RL의 효과성을 검증했습니다.
English
Vision-Language-Action (VLA) models enable robots to understand and perform
complex tasks from multimodal input. Although recent work explores using
reinforcement learning (RL) to automate the laborious data collection process
in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based
VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action
log-likelihoods from iterative denoising.
We address this challenge with pi_{RL}, an open-source framework
for training flow-based VLAs in parallel simulation. pi_{RL}
implements two RL algorithms: (1) {Flow-Noise} models the denoising process as
a discrete-time MDP with a learnable noise network for exact log-likelihood
computation. (2) {Flow-SDE} integrates denoising with agent-environment
interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for
efficient RL exploration.
We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO,
pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6%
to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train
pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to
85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks,
demonstrating scalable multitask RL under heterogeneous simulation.
Overall, pi_{RL} achieves significant performance gains and
stronger generalization over SFT-models, validating the effectiveness of online
RL for flow-based VLAs.