VLA-RFT : Réglage fin par renforcement Vision-Langage-Action avec récompenses vérifiées dans des simulateurs de monde
VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
October 1, 2025
papers.authors: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) permettent une prise de décision incarnée, mais reposent fortement sur l'apprentissage par imitation, ce qui entraîne des erreurs cumulatives et une faible robustesse face aux changements de distribution. L'apprentissage par renforcement (RL) peut atténuer ces problèmes, mais nécessite généralement des interactions coûteuses dans le monde réel ou souffre des écarts entre simulation et réalité. Nous présentons VLA-RFT, un cadre de réglage fin par renforcement qui exploite un modèle du monde basé sur les données comme simulateur contrôlable. Entraîné à partir de données d'interaction réelles, le simulateur prédit les observations visuelles futures en fonction des actions, permettant des déploiements de politiques avec des récompenses denses, au niveau de la trajectoire, dérivées de références d'atteinte d'objectifs. Cette conception fournit un signal d'apprentissage efficace et aligné sur les actions, réduisant considérablement les besoins en échantillons. Avec moins de 400 étapes de réglage fin, VLA-RFT surpasse les bases de référence supervisées et atteint une efficacité supérieure à celle du RL basé sur simulateur. De plus, il démontre une forte robustesse dans des conditions perturbées, maintenant une exécution stable des tâches. Nos résultats établissent le réglage fin par renforcement basé sur un modèle du monde comme un paradigme pratique de post-formation pour améliorer la généralisation et la robustesse des modèles VLA. Pour plus de détails, veuillez consulter https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely
heavily on imitation learning, leading to compounding errors and poor
robustness under distribution shift. Reinforcement learning (RL) can mitigate
these issues yet typically demands costly real-world interactions or suffers
from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning
framework that leverages a data-driven world model as a controllable simulator.
Trained from real interaction data, the simulator predicts future visual
observations conditioned on actions, allowing policy rollouts with dense,
trajectory-level rewards derived from goal-achieving references. This design
delivers an efficient and action-aligned learning signal, drastically lowering
sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses
strong supervised baselines and achieves greater efficiency than
simulator-based RL. Moreover, it exhibits strong robustness under perturbed
conditions, sustaining stable task execution. Our results establish
world-model-based RFT as a practical post-training paradigm to enhance the
generalization and robustness of VLA models. For more details, please refer to
https://vla-rft.github.io/.