ChatPaper.aiChatPaper

VLA-RFT: Vision-Taal-Actie Versterkend Fijnstemmen met Geverifieerde Beloningen in Wereldsimulatoren

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

October 1, 2025
Auteurs: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI

Samenvatting

Vision-Language-Action (VLA)-modellen maken belichaamde besluitvorming mogelijk, maar zijn sterk afhankelijk van imitatieleren, wat leidt tot cumulatieve fouten en een gebrek aan robuustheid bij distributieverschuivingen. Reinforcement learning (RL) kan deze problemen verminderen, maar vereist doorgaans kostbare interacties in de echte wereld of lijdt onder sim-to-real-kloof. Wij introduceren VLA-RFT, een reinforcement fine-tuning-framework dat gebruikmaakt van een data-gedreven wereldmodel als een controleerbare simulator. Getraind op basis van echte interactiedata, voorspelt de simulator toekomstige visuele observaties op basis van acties, waardoor policy-rollouts mogelijk worden met dichte, trajectniveau beloningen afgeleid van doelbereikingsreferenties. Dit ontwerp biedt een efficiënt en actie-afgestemd leersignaal, waardoor de benodigde steekproeven aanzienlijk worden verminderd. Met minder dan 400 fine-tuning-stappen overtreft VLA-RFT sterke supervised baselines en behaalt het een grotere efficiëntie dan simulator-gebaseerd RL. Bovendien toont het sterke robuustheid onder verstoorde omstandigheden, waarbij het een stabiele taakuitvoering behoudt. Onze resultaten vestigen wereldmodel-gebaseerde RFT als een praktisch post-trainingsparadigma om de generalisatie en robuustheid van VLA-modellen te verbeteren. Voor meer details, zie https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.
PDF633October 2, 2025