ChatPaper.aiChatPaper

VLA-RFT: Тонкая настройка с подкреплением для взаимодействия "Видение-Язык-Действие" с проверенными вознаграждениями в симуляторах мира

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

October 1, 2025
Авторы: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
cs.AI

Аннотация

Модели Vision-Language-Action (VLA) обеспечивают принятие решений в физическом мире, но в значительной степени полагаются на обучение с подражанием, что приводит к накоплению ошибок и низкой устойчивости при сдвиге распределения. Обучение с подкреплением (RL) может смягчить эти проблемы, однако обычно требует дорогостоящих взаимодействий в реальном мире или страдает от разрыва между симуляцией и реальностью. Мы представляем VLA-RFT — фреймворк для тонкой настройки с использованием обучения с подкреплением, который использует управляемую симуляцию на основе данных. Обучаясь на данных реальных взаимодействий, симулятор предсказывает будущие визуальные наблюдения в зависимости от действий, позволяя развертывание политик с плотными наградами на уровне траекторий, основанных на эталонных данных достижения целей. Такой подход обеспечивает эффективный и согласованный с действиями сигнал обучения, значительно снижая требования к объему данных. Всего за менее чем 400 шагов тонкой настройки VLA-RFT превосходит сильные базовые модели, обученные с учителем, и демонстрирует большую эффективность, чем RL на основе симуляторов. Более того, модель демонстрирует высокую устойчивость в условиях возмущений, сохраняя стабильное выполнение задач. Наши результаты подтверждают, что тонкая настройка на основе модели мира является практичной парадигмой пост-обучения для повышения обобщаемости и устойчивости моделей VLA. Для получения дополнительной информации посетите https://vla-rft.github.io/.
English
Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.
PDF613October 2, 2025