ChatPaper.aiChatPaper

VLA-RFT: 世界シミュレータにおける検証済み報酬を用いた視覚-言語-行動強化学習ファインチューニング

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

October 1, 2025
著者: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI

要旨

Vision-Language-Action(VLA)モデルは、具現化された意思決定を可能にするが、模倣学習に大きく依存しており、分布シフト下での誤差の累積やロバスト性の低さを引き起こす。強化学習(RL)はこれらの問題を緩和できるが、通常、現実世界での高コストなインタラクションを必要とするか、シミュレーションから現実へのギャップに悩まされる。本論文では、データ駆動型の世界モデルを制御可能なシミュレータとして活用する強化学習ファインチューニングフレームワーク、VLA-RFTを提案する。実インタラクションデータから訓練されたこのシミュレータは、行動に条件付けられた将来の視覚観測を予測し、目標達成に基づく密な軌跡レベルの報酬を用いたポリシーロールアウトを可能にする。この設計により、効率的で行動に整合した学習信号が提供され、サンプル要件が大幅に削減される。400回未満のファインチューニングステップで、VLA-RFTは強力な教師ありベースラインを上回り、シミュレータベースのRLよりも高い効率を達成する。さらに、摂動条件下でも強いロバスト性を示し、安定したタスク実行を維持する。我々の結果は、世界モデルベースのRFTが、VLAモデルの汎化性とロバスト性を向上させる実用的なポストトレーニングパラダイムであることを示している。詳細については、https://vla-rft.github.io/を参照されたい。
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.
PDF613October 2, 2025