π_RL : Réglage fin en ligne par RL pour les modèles flux intégrant vision, langage et action
π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
October 29, 2025
papers.authors: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) permettent aux robots de comprendre et d'exécuter des tâches complexes à partir d'entrées multimodales. Bien que des travaux récents explorent l'utilisation de l'apprentissage par renforcement (RL) pour automatiser le processus fastidieux de collecte de données lors de la mise à l'échelle du fine-tuning supervisé (SFT), l'application du RL à grande échelle aux VLA basés sur des flux (par exemple, π₀, π₀.₅) reste difficile en raison de l'incalculabilité des log-vraisemblances d'actions lors du débruîtage itératif.
Nous relevons ce défi avec π_RL, un framework open-source pour l'entraînement des VLA basés sur des flux en simulation parallèle. π_RL implémente deux algorithmes de RL : (1) {Flow-Noise} modélise le processus de débruîtage comme un MDP à temps discret avec un réseau de bruit apprenable pour le calcul exact de la log-vraisemblance. (2) {Flow-SDE} intègre le débruîtage avec l'interaction agent-environnement, formulant un MDP à deux couches qui utilise une conversion ODE-vers-SDE pour une exploration RL efficace.
Nous évaluons π_RL sur les benchmarks LIBERO et ManiSkill. Sur LIBERO, π_RL améliore les modèles SFT en few-shot π₀ et π₀.₅, les faisant passer respectivement de 57,6 % à 97,6 % et de 77,1 % à 98,3 %. Dans ManiSkill, nous entraînons π_RL dans 320 environnements parallèles, améliorant π₀ de 41,6 % à 85,7 % et π₀.₅ de 40,0 % à 84,8 % sur 4352 tâches de pick-and-place, démontrant ainsi un RL multitâche scalable dans des simulations hétérogènes.
Globalement, π_RL obtient des gains de performance significatifs et une généralisation plus robuste que les modèles SFT, validant l'efficacité du RL en ligne pour les VLA basés sur des flux.
English
Vision-Language-Action (VLA) models enable robots to understand and perform
complex tasks from multimodal input. Although recent work explores using
reinforcement learning (RL) to automate the laborious data collection process
in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based
VLAs (e.g., pi_0, pi_{0.5}) remains challenging due to intractable action
log-likelihoods from iterative denoising.
We address this challenge with pi_{RL}, an open-source framework
for training flow-based VLAs in parallel simulation. pi_{RL}
implements two RL algorithms: (1) {Flow-Noise} models the denoising process as
a discrete-time MDP with a learnable noise network for exact log-likelihood
computation. (2) {Flow-SDE} integrates denoising with agent-environment
interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for
efficient RL exploration.
We evaluate pi_{RL} on LIBERO and ManiSkill benchmarks. On LIBERO,
pi_{RL} boosts few-shot SFT models pi_0 and pi_{0.5} from 57.6%
to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train
pi_{RL} in 320 parallel environments, improving pi_0 from 41.6% to
85.7% and pi_{0.5} from 40.0% to 84.8% across 4352 pick-and-place tasks,
demonstrating scalable multitask RL under heterogeneous simulation.
Overall, pi_{RL} achieves significant performance gains and
stronger generalization over SFT-models, validating the effectiveness of online
RL for flow-based VLAs.