ChatPaper.aiChatPaper

VLA-R1: Улучшение способности к рассуждению в моделях "Ви́дение-Язык-Действие"

VLA-R1: Enhancing Reasoning in Vision-Language-Action Models

October 2, 2025
Авторы: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu
cs.AI

Аннотация

Модели Vision-Language-Action (VLA) направлены на объединение восприятия, понимания языка и генерации действий, обеспечивая сильную обобщаемость между задачами и сценами, что имеет широкое влияние на воплощённый искусственный интеллект. Однако современные модели VLA часто не обладают явным пошаговым рассуждением, вместо этого выдавая конечные действия без учёта ограничений аффордансов или геометрических отношений. Их посттренировочные конвейеры также редко усиливают качество рассуждений, полагаясь в основном на контролируемую тонкую настройку с использованием слабо разработанных вознаграждений. Для решения этих проблем мы представляем VLA-R1, модель VLA с усиленным рассуждением, которая интегрирует обучение с подкреплением на основе проверяемых вознаграждений (RLVR) с оптимизацией групповой относительной политики (GRPO) для систематической оптимизации как рассуждений, так и выполнения. В частности, мы разрабатываем посттренировочную стратегию на основе RLVR с проверяемыми вознаграждениями для выравнивания регионов, согласованности траекторий и форматирования выходных данных, тем самым укрепляя устойчивость рассуждений и точность выполнения. Кроме того, мы создаём VLA-CoT-13K, высококачественный набор данных, предоставляющий цепочку рассуждений, явно согласованную с аннотациями аффордансов и траекторий. Более того, обширные оценки на внутридоменных, внедоменных, симуляционных и реальных роботизированных платформах демонстрируют, что VLA-R1 достигает превосходной обобщаемости и производительности в реальных условиях по сравнению с предыдущими методами VLA. Мы планируем выпустить модель, код и набор данных после публикации данной работы. Код: https://github.com/GigaAI-research/VLA-R1. Веб-сайт: https://gigaai-research.github.io/VLA-R1.
English
Vision-Language-Action (VLA) models aim to unify perception, language understanding, and action generation, offering strong cross-task and cross-scene generalization with broad impact on embodied AI. However, current VLA models often lack explicit step-by-step reasoning, instead emitting final actions without considering affordance constraints or geometric relations. Their post-training pipelines also rarely reinforce reasoning quality, relying primarily on supervised fine-tuning with weak reward design. To address these challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative Policy Optimization (GRPO) to systematically optimize both reasoning and execution. Specifically, we design an RLVR-based post-training strategy with verifiable rewards for region alignment, trajectory consistency, and output formatting, thereby strengthening reasoning robustness and execution accuracy. Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides chain-of-thought supervision explicitly aligned with affordance and trajectory annotations. Furthermore, extensive evaluations on in-domain, out-of-domain, simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior generalization and real-world performance compared to prior VLA methods. We plan to release the model, code, and dataset following the publication of this work. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
PDF72October 3, 2025