ChatPaper.aiChatPaper

行動ポリシーの強化による予言

Reinforcing Action Policies by Prophesying

November 25, 2025
著者: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI

要旨

Vision-Language-Action(VLA)ポリシーは、言語、知覚、ロボット制御の整合を取る点で優れている。しかし、大半のVLAは模倣学習のみで訓練されており、実証データへの過適合が生じ、分布シフト下では脆い。強化学習(RL)はタスク報酬を直接最適化するため、この不整合を解決するが、実ロボットでのインタラクションはコストが高く、従来のシミュレータは構築や転移が困難である。本研究では、学習済みの世界モデルとフローベース行動ヘッドに特化したRL手法により、VLAのポストトレーニングにおけるデータ効率と最適化安定性の両課題に取り組む。具体的には、大規模で異種のロボットデータを事前学習し、再利用可能な行動-結果ダイナミクスを学習する統合型「行動-映像」ロボット駆動モデルProphetを提案する。本モデルは新規ロボット、物体、環境への数発適応が可能であり、即時利用可能なシミュレータを生成する。Prophetを基盤として、Flow-GRPOをVLA行動に適用したFlow-action-GRPO(FA-GRPO)と、フローヘッドのステップ単位勾配を再スケーリングする段階的再重み付け手法FlowScaleにより行動ポリシーを強化する。Prophet、FA-GRPO、FlowScaleを統合したProphRLは、VLAポストトレーニングに向けた実用的でデータ・計算効率に優れた手法である。実験では、様々なVLA変種において、公開ベンチマークで5-17%、実ロボットで24-30%の成功率向上を実証した。
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.
PDF22December 1, 2025