VLA-RFT: Ajuste Fino por Reforço Visão-Linguagem-Ação com Recompensas Verificadas em Simuladores de Mundo
VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
October 1, 2025
Autores: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLA) permitem a tomada de decisões embarcadas, mas dependem fortemente do aprendizado por imitação, o que leva a erros cumulativos e baixa robustez sob mudanças de distribuição. O aprendizado por reforço (RL) pode mitigar esses problemas, mas geralmente exige interações custosas no mundo real ou sofre com lacunas de simulação para realidade. Apresentamos o VLA-RFT, uma estrutura de ajuste fino por reforço que utiliza um modelo de mundo baseado em dados como um simulador controlável. Treinado a partir de dados de interação real, o simulador prevê observações visuais futuras condicionadas a ações, permitindo a execução de políticas com recompensas densas e em nível de trajetória derivadas de referências de alcance de objetivos. Esse design fornece um sinal de aprendizado eficiente e alinhado à ação, reduzindo drasticamente os requisitos de amostras. Com menos de 400 etapas de ajuste fino, o VLA-RFT supera baselines supervisionados fortes e alcança maior eficiência do que o RL baseado em simulador. Além disso, ele exibe forte robustez sob condições perturbadas, mantendo a execução estável de tarefas. Nossos resultados estabelecem o ajuste fino por reforço baseado em modelo de mundo como um paradigma prático de pós-treinamento para melhorar a generalização e a robustez dos modelos VLA. Para mais detalhes, consulte https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely
heavily on imitation learning, leading to compounding errors and poor
robustness under distribution shift. Reinforcement learning (RL) can mitigate
these issues yet typically demands costly real-world interactions or suffers
from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning
framework that leverages a data-driven world model as a controllable simulator.
Trained from real interaction data, the simulator predicts future visual
observations conditioned on actions, allowing policy rollouts with dense,
trajectory-level rewards derived from goal-achieving references. This design
delivers an efficient and action-aligned learning signal, drastically lowering
sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses
strong supervised baselines and achieves greater efficiency than
simulator-based RL. Moreover, it exhibits strong robustness under perturbed
conditions, sustaining stable task execution. Our results establish
world-model-based RFT as a practical post-training paradigm to enhance the
generalization and robustness of VLA models. For more details, please refer to
https://vla-rft.github.io/.