Renforcement des politiques d'action par la prophétie
Reinforcing Action Policies by Prophesying
November 25, 2025
papers.authors: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI
papers.abstract
Les politiques Vision-Langage-Action (VLA) excellent dans l'alignement du langage, de la perception et du contrôle robotique. Cependant, la plupart des VLA sont entraînées uniquement par imitation, ce qui les rend sujettes au surajustement sur les démonstrations et les fragilise face à un changement de distribution. L'apprentissage par renforcement (RL) optimise directement la récompense de la tâche et résout ainsi ce problème d'alignement, mais l'interaction sur un vrai robot est coûteuse et les simulateurs conventionnels sont difficiles à concevoir et à transférer. Nous abordons à la fois l'efficacité des données et la stabilité de l'optimisation lors du post-entraînement des VLA via un modèle du monde appris et une procédure RL adaptée aux têtes d'action basées sur des flux. Plus précisément, nous présentons Prophet, une unité d'action-vers-vidéo unifiée, pré-entraînée sur de vastes données robotiques hétérogènes pour apprendre des dynamiques action-résultat réutilisables. Il est capable de s'adapter en few-shot à de nouveaux robots, objets et environnements, produisant ainsi un simulateur prêt à l'emploi. Sur la base de Prophet, nous renforçons les politiques d'action avec Flow-action-GRPO (FA-GRPO), qui adapte Flow-GRPO pour fonctionner sur des actions VLA, et avec FlowScale, une repondération pas à pas qui recalibre les gradients par étape dans la tête de flux. Ensemble, Prophet, FA-GRPO et FlowScale constituent ProphRL, une méthode pratique, économe en données et en calcul pour le post-entraînement des VLA. Les expériences montrent des gains de succès de 5 à 17 % sur des benchmarks publics et de 24 à 30 % sur des robots réels pour différentes variantes de VLA.
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.