ChatPaper.aiChatPaper

VLA-RFT: Ajuste Fino por Refuerzo de Visión-Lenguaje-Acción con Recompensas Verificadas en Simuladores de Mundo

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

October 1, 2025
Autores: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) permiten la toma de decisiones corporizadas, pero dependen en gran medida del aprendizaje por imitación, lo que conduce a errores acumulativos y una escasa robustez ante cambios en la distribución. El aprendizaje por refuerzo (RL) puede mitigar estos problemas, aunque generalmente requiere interacciones costosas en el mundo real o sufre de brechas sim-to-real. Presentamos VLA-RFT, un marco de ajuste fino basado en refuerzo que aprovecha un modelo del mundo basado en datos como simulador controlable. Entrenado a partir de datos de interacción real, el simulador predice observaciones visuales futuras condicionadas a acciones, permitiendo despliegues de políticas con recompensas densas a nivel de trayectoria derivadas de referencias de logro de objetivos. Este diseño proporciona una señal de aprendizaje eficiente y alineada con la acción, reduciendo drásticamente los requisitos de muestreo. Con menos de 400 pasos de ajuste fino, VLA-RFT supera a sólidas líneas base supervisadas y logra una mayor eficiencia que el RL basado en simuladores. Además, exhibe una fuerte robustez en condiciones perturbadas, manteniendo una ejecución estable de tareas. Nuestros resultados establecen el ajuste fino basado en modelos del mundo como un paradigma práctico de posentrenamiento para mejorar la generalización y robustez de los modelos VLA. Para más detalles, consulte https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.
PDF613October 2, 2025