VLA-RFT: Vision-Sprache-Handlung Verstärkungsfeinabstimmung mit verifizierten Belohnungen in Weltsimulatoren
VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
October 1, 2025
papers.authors: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle ermöglichen verkörpertes Entscheidungsverhalten, sind jedoch stark auf Imitationslernen angewiesen, was zu kumulativen Fehlern und geringer Robustheit bei Verteilungsverschiebungen führt. Reinforcement Learning (RL) kann diese Probleme mildern, erfordert jedoch typischerweise kostspielige Interaktionen in der realen Welt oder leidet unter Sim-to-Real-Lücken. Wir stellen VLA-RFT vor, ein Reinforcement-Fine-Tuning-Framework, das ein datengetriebenes Weltmodell als kontrollierbaren Simulator nutzt. Der Simulator, der aus realen Interaktionsdaten trainiert wird, sagt zukünftige visuelle Beobachtungen in Abhängigkeit von Aktionen voraus und ermöglicht so Policy-Rollouts mit dichten, trajektorienbasierten Belohnungen, die aus Zielerreichungsreferenzen abgeleitet werden. Dieser Entwurf liefert ein effizientes und handlungsorientiertes Lernsignal und reduziert den Probenbedarf drastisch. Mit weniger als 400 Fine-Tuning-Schritten übertrifft VLA-RFT starke überwachte Baselines und erreicht eine höhere Effizienz als simulatorbasiertes RL. Darüber hinaus zeigt es eine starke Robustheit unter gestörten Bedingungen und gewährleistet eine stabile Aufgabenausführung. Unsere Ergebnisse etablieren weltmodellbasiertes RFT als praktisches Post-Training-Paradigma, um die Generalisierungsfähigkeit und Robustheit von VLA-Modellen zu verbessern. Weitere Details finden Sie unter https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely
heavily on imitation learning, leading to compounding errors and poor
robustness under distribution shift. Reinforcement learning (RL) can mitigate
these issues yet typically demands costly real-world interactions or suffers
from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning
framework that leverages a data-driven world model as a controllable simulator.
Trained from real interaction data, the simulator predicts future visual
observations conditioned on actions, allowing policy rollouts with dense,
trajectory-level rewards derived from goal-achieving references. This design
delivers an efficient and action-aligned learning signal, drastically lowering
sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses
strong supervised baselines and achieves greater efficiency than
simulator-based RL. Moreover, it exhibits strong robustness under perturbed
conditions, sustaining stable task execution. Our results establish
world-model-based RFT as a practical post-training paradigm to enhance the
generalization and robustness of VLA models. For more details, please refer to
https://vla-rft.github.io/.