VLA-RFT: Ajuste Fino por Refuerzo de Visión-Lenguaje-Acción con Recompensas Verificadas en Simuladores de Mundo
VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
October 1, 2025
Autores: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) permiten la toma de decisiones corporizadas, pero dependen en gran medida del aprendizaje por imitación, lo que conduce a errores acumulativos y una escasa robustez ante cambios en la distribución. El aprendizaje por refuerzo (RL) puede mitigar estos problemas, aunque generalmente requiere interacciones costosas en el mundo real o sufre de brechas sim-to-real. Presentamos VLA-RFT, un marco de ajuste fino basado en refuerzo que aprovecha un modelo del mundo basado en datos como simulador controlable. Entrenado a partir de datos de interacción real, el simulador predice observaciones visuales futuras condicionadas a acciones, permitiendo despliegues de políticas con recompensas densas a nivel de trayectoria derivadas de referencias de logro de objetivos. Este diseño proporciona una señal de aprendizaje eficiente y alineada con la acción, reduciendo drásticamente los requisitos de muestreo. Con menos de 400 pasos de ajuste fino, VLA-RFT supera a sólidas líneas base supervisadas y logra una mayor eficiencia que el RL basado en simuladores. Además, exhibe una fuerte robustez en condiciones perturbadas, manteniendo una ejecución estable de tareas. Nuestros resultados establecen el ajuste fino basado en modelos del mundo como un paradigma práctico de posentrenamiento para mejorar la generalización y robustez de los modelos VLA. Para más detalles, consulte https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely
heavily on imitation learning, leading to compounding errors and poor
robustness under distribution shift. Reinforcement learning (RL) can mitigate
these issues yet typically demands costly real-world interactions or suffers
from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning
framework that leverages a data-driven world model as a controllable simulator.
Trained from real interaction data, the simulator predicts future visual
observations conditioned on actions, allowing policy rollouts with dense,
trajectory-level rewards derived from goal-achieving references. This design
delivers an efficient and action-aligned learning signal, drastically lowering
sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses
strong supervised baselines and achieves greater efficiency than
simulator-based RL. Moreover, it exhibits strong robustness under perturbed
conditions, sustaining stable task execution. Our results establish
world-model-based RFT as a practical post-training paradigm to enhance the
generalization and robustness of VLA models. For more details, please refer to
https://vla-rft.github.io/.