ChatPaper.aiChatPaper

Versterken van Actiebeleid door Voorspelling

Reinforcing Action Policies by Prophesying

November 25, 2025
Auteurs: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI

Samenvatting

Vision-Language-Action (VLA)-beleidsmodellen blinken uit in het afstemmen van taal, perceptie en robotbesturing. De meeste VLA's worden echter uitsluitend getraind via imitatie, wat leidt tot overfitting op de demonstraties en broos gedrag bij distributieverschuivingen. Reinforcement learning (RL) optimaliseert direct de taakbeloning en pakt dit misalignment aan, maar interactie met echte robots is kostbaar en conventionele simulators zijn moeilijk te ontwikkelen en over te dragen. Wij pakken zowel de data-efficiëntie als de optimalisatiestabiliteit aan bij VLA-natraining via een geleerd wereldmodel en een RL-procedure die is toegesneden op op stroming (flow) gebaseerde actiekoppen. Specifiek introduceren we Prophet, een geünificeerde actie-naar-video robotactuatie voorgetraind op grootschalige, heterogene robotdata om herbruikbare actie-uitkomst-dynamica te leren. Het kan met weinig voorbeelden (few-shot) adaptatie uitvoeren naar nieuwe robots, objecten en omgevingen, wat resulteert in een direct inzetbare simulator (rollout-ready). Gebaseerd op Prophet, versterken we actiebeleidsmodellen met Flow-action-GRPO (FA-GRPO), dat Flow-GRPO aanpast om op VLA-acties te werken, en met FlowScale, een stapsgewijze herweging die de gradienten per stap in de flow-kop herschaalt. Samen vormen Prophet, FA-GRPO en FlowScale ProphRL, een praktische, data- en rekenzuinige route voor VLA-natraining. Experimenten tonen verbeteringen van 5-17% in succespercentages op publieke benchmarks en 24-30% verbetering op echte robots voor verschillende VLA-varianten.
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.
PDF22December 1, 2025