Verstärkung von Aktionsrichtlinien durch Vorhersage
Reinforcing Action Policies by Prophesying
November 25, 2025
papers.authors: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Policies zeichnen sich durch eine hohe Übereinstimmung von Sprache, Wahrnehmung und Robotersteuerung aus. Die meisten VLA-Modelle werden jedoch rein durch Imitation trainiert, was zu einer Überanpassung an die Demonstrationsdaten führt und bei Verteilungsverschiebungen instabil ist. Reinforcement Learning (RL) optimiert direkt die Aufgabenbelohnung und behebt somit diese Fehlausrichtung, jedoch sind Interaktionen mit realen Robotern kostspielig und konventionelle Simulatoren sind schwer zu entwickeln und zu übertragen. Wir adressieren sowohl Dateneffizienz als auch Optimierungsstabilität beim VLA-Nachtraining mittels eines gelernten Weltmodells und eines speziell auf flow-basierte Aktionsköpfe zugeschnittenen RL-Verfahrens. Konkret führen wir Prophet ein, eine einheitliche Aktions-zu-Video-Roboteraktuation, die vorab auf großen, heterogenen Roboterdaten trainiert wird, um wiederverwendbare Aktions-Ergebnis-Dynamiken zu erlernen. Es kann sich few-shot an neue Roboter, Objekte und Umgebungen anpassen und liefert einen einsatzbereiten Simulator. Aufbauend auf Prophet verstärken wir Aktionspolitiken mit Flow-action-GRPO (FA-GRPO), das Flow-GRPO für den Betrieb mit VLA-Aktionen anpasst, und mit FlowScale, einer schrittweisen Neugewichtung, die die Gradienten pro Schritt im Flow-Kopf neu skaliert. Zusammen bilden Prophet, FA-GRPO und FlowScale ProphRL, einen praktischen, daten- und recheneffizienten Weg für das VLA-Nachtraining. Experimente zeigen Erfolgssteigerungen von 5–17 % auf öffentlichen Benchmarks und 24–30 % auf realen Robotern über verschiedene VLA-Varianten hinweg.
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.