ChatPaper.aiChatPaper

VLA-RFT: Affinamento con Rinforzo Visione-Linguaggio-Azione con Ricompense Verificate nei Simulatori di Mondi

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

October 1, 2025
Autori: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI

Abstract

I modelli Vision-Language-Action (VLA) abilitano il processo decisionale incarnato, ma si basano fortemente sull'apprendimento per imitazione, portando a errori cumulativi e scarsa robustezza in caso di cambiamenti nella distribuzione dei dati. L'apprendimento per rinforzo (RL) può mitigare questi problemi, ma richiede tipicamente interazioni costose nel mondo reale o soffre del divario tra simulazione e realtà. Introduciamo VLA-RFT, un framework di fine-tuning basato su rinforzo che sfrutta un modello del mondo guidato dai dati come simulatore controllabile. Addestrato su dati di interazione reali, il simulatore prevede osservazioni visive future condizionate alle azioni, consentendo l'esecuzione di politiche con ricompense dense a livello di traiettoria derivate da riferimenti di raggiungimento degli obiettivi. Questo design fornisce un segnale di apprendimento efficiente e allineato alle azioni, riducendo drasticamente i requisiti di campionamento. Con meno di 400 passi di fine-tuning, VLA-RFT supera solide baseline supervisionate e raggiunge una maggiore efficienza rispetto all'RL basato su simulatore. Inoltre, mostra una forte robustezza in condizioni perturbate, mantenendo un'esecuzione stabile dei compiti. I nostri risultati stabiliscono il fine-tuning basato su modelli del mondo come un paradigma pratico post-addestramento per migliorare la generalizzazione e la robustezza dei modelli VLA. Per maggiori dettagli, consultare https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.
PDF633October 2, 2025