VLA-R1 : Amélioration du raisonnement dans les modèles vision-langage-action
VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
October 2, 2025
papers.authors: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) visent à unifier la perception, la compréhension du langage et la génération d'actions, offrant une forte généralisation inter-tâches et inter-scènes avec un impact significatif sur l'IA incarnée. Cependant, les modèles VLA actuels manquent souvent de raisonnement explicite étape par étape, produisant plutôt des actions finales sans tenir compte des contraintes d'affordance ou des relations géométriques. Leurs pipelines post-entraînement renforcent rarement la qualité du raisonnement, reposant principalement sur un ajustement fin supervisé avec une conception de récompense faible. Pour relever ces défis, nous présentons VLA-R1, un VLA amélioré par le raisonnement qui intègre l'Apprentissage par Renforcement à partir de Récompenses Vérifiables (RLVR) avec l'Optimisation de Politique Relative par Groupe (GRPO) afin d'optimiser systématiquement à la fois le raisonnement et l'exécution. Plus précisément, nous concevons une stratégie post-entraînement basée sur RLVR avec des récompenses vérifiables pour l'alignement des régions, la cohérence des trajectoires et la mise en forme des sorties, renforçant ainsi la robustesse du raisonnement et la précision de l'exécution. De plus, nous développons VLA-CoT-13K, un ensemble de données de haute qualité qui fournit une supervision en chaîne de pensée explicitement alignée avec les annotations d'affordance et de trajectoire. Par ailleurs, des évaluations approfondies sur des plateformes en domaine, hors domaine, de simulation et de robot réel démontrent que VLA-R1 atteint une généralisation et des performances en conditions réelles supérieures par rapport aux méthodes VLA précédentes. Nous prévoyons de publier le modèle, le code et l'ensemble de données après la publication de ce travail. Code : https://github.com/GigaAI-research/VLA-R1. Site web : https://gigaai-research.github.io/VLA-R1.
English
Vision-Language-Action (VLA) models aim to unify perception, language
understanding, and action generation, offering strong cross-task and
cross-scene generalization with broad impact on embodied AI. However, current
VLA models often lack explicit step-by-step reasoning, instead emitting final
actions without considering affordance constraints or geometric relations.
Their post-training pipelines also rarely reinforce reasoning quality, relying
primarily on supervised fine-tuning with weak reward design. To address these
challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates
Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative
Policy Optimization (GRPO) to systematically optimize both reasoning and
execution. Specifically, we design an RLVR-based post-training strategy with
verifiable rewards for region alignment, trajectory consistency, and output
formatting, thereby strengthening reasoning robustness and execution accuracy.
Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides
chain-of-thought supervision explicitly aligned with affordance and trajectory
annotations. Furthermore, extensive evaluations on in-domain, out-of-domain,
simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior
generalization and real-world performance compared to prior VLA methods. We
plan to release the model, code, and dataset following the publication of this
work. Code: https://github.com/GigaAI-research/VLA-R1. Website:
https://gigaai-research.github.io/VLA-R1.