Rafforzamento delle Politiche di Azione attraverso la Predizione
Reinforcing Action Policies by Prophesying
November 25, 2025
Autori: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI
Abstract
Le politiche Vision-Language-Action (VLA) eccellono nell'allineare linguaggio, percezione e controllo robotico. Tuttavia, la maggior parte dei modelli VLA viene addestrata puramente per imitazione, il che porta a un overfitting rispetto alle dimostrazioni e a una fragilità in caso di shift distribuzionale. L'apprendimento per rinforzo (RL) ottimizza direttamente la ricompensa del compito, affrontando così questo disallineamento, ma l'interazione con robot reali è costosa e i simulatori convenzionali sono difficili da progettare e trasferire. Noi affrontiamo sia l'efficienza dei dati che la stabilità dell'ottimizzazione nel post-addestramento VLA attraverso un modello del mondo appreso e una procedura RL studiata per teste di azione basate su flussi (flow). Nello specifico, introduciamo Prophet, un modello unificato di attuazione robotica da azione a video, pre-addestrato su dati robotici eterogenei e su larga scala per apprendere dinamiche azione-risultato riutilizzabili. Esso è in grado di adattarsi con pochi esempi (few-shot) a nuovi robot, oggetti e ambienti, producendo un simulatore pronto per il rollout. Su Prophet, rinforziamo le politiche di azione con Flow-action-GRPO (FA-GRPO), che adatta Flow-GRPO per operare su azioni VLA, e con FlowScale, un ripesaggio passo-passo che riscala i gradienti per passo nella testa di flusso. Insieme, Prophet, FA-GRPO e FlowScale costituiscono ProphRL, un percorso pratico, efficiente in termini di dati e computazione, per il post-addestramento VLA. Gli esperimenti mostrano miglioramenti del successo del 5-17% su benchmark pubblici e del 24-30% su robot reali su diverse varianti VLA.
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.