π_RL: Онлайн тонкая настройка методом обучения с подкреплением для потоковых моделей «зрение-язык-действие»
π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
October 29, 2025
Авторы: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI
Аннотация
Модели «Vision-Language-Action» (VLA) позволяют роботам понимать и выполнять сложные задачи на основе мультимодального ввода. Хотя в последних работах исследуется использование обучения с подкреплением (RL) для автоматизации трудоёмкого процесса сбора данных при масштабировании контролируемой тонкой настройки (SFT), применение крупномасштабного RL к потоковым VLA-моделям (например, π₀, π₀.₅) остаётся сложной задачей из-за невычислимой логарифмической правдоподобности действий, возникающей в итеративном процессе удаления шума.
Мы решаем эту проблему с помощью π_RL — фреймворка с открытым исходным кодом для обучения потоковых VLA-моделей в параллельной симуляции. π_RL реализует два алгоритма RL: (1) **Flow-Noise** моделирует процесс удаления шума как марковский процесс принятия решений (MDP) с дискретным временем и обучаемой сетью для генерации шума, что позволяет точно вычислять логарифмическую правдоподобность. (2) **Flow-SDE** интегрирует удаление шума с взаимодействием агента и среды, формулируя двухуровневый MDP, который использует преобразование ODE в SDE для эффективного исследования в RL.
Мы оцениваем π_RL на бенчмарках LIBERO и ManiSkill. На LIBERO π_RL повышает производительность моделей с few-shot SFT, π₀ и π₀.₅, с 57.6% до 97.6% и с 77.1% до 98.3% соответственно. В ManiSkill мы обучаем π_RL в 320 параллельных средах, улучшая показатели π₀ с 41.6% до 85.7% и π₀.₅ с 40.0% до 84.8% на 4352 задачах «pick-and-place», что демонстрирует масштабируемое многозадачное RL в условиях гетерогенной симуляции.
В целом, π_RL демонстрирует значительный прирост производительности и более сильную обобщающую способность по сравнению с SFT-моделями, подтверждая эффективность онлайн RL для потоковых VLA-моделей.
English
Vision-Language-Action (VLA) models enable robots to understand and perform
complex tasks from multimodal input. Although recent work explores using
reinforcement learning (RL) to automate the laborious data collection process
in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based
VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action
log-likelihoods from iterative denoising.
We address this challenge with pi_{RL}, an open-source framework
for training flow-based VLAs in parallel simulation. pi_{RL}
implements two RL algorithms: (1) {Flow-Noise} models the denoising process as
a discrete-time MDP with a learnable noise network for exact log-likelihood
computation. (2) {Flow-SDE} integrates denoising with agent-environment
interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for
efficient RL exploration.
We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO,
pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6%
to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train
pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to
85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks,
demonstrating scalable multitask RL under heterogeneous simulation.
Overall, pi_{RL} achieves significant performance gains and
stronger generalization over SFT-models, validating the effectiveness of online
RL for flow-based VLAs.