VLA-R1: Miglioramento del Ragionamento nei Modelli Visione-Linguaggio-Azione
VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
October 2, 2025
Autori: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) mirano a unificare percezione, comprensione del linguaggio e generazione di azioni, offrendo una forte generalizzazione cross-task e cross-scenario con un impatto significativo sull'AI incarnata. Tuttavia, gli attuali modelli VLA spesso mancano di un ragionamento esplicito passo-passo, emettendo invece azioni finali senza considerare vincoli di affordance o relazioni geometriche. Le loro pipeline post-addestramento raramente rafforzano la qualità del ragionamento, basandosi principalmente su fine-tuning supervisionato con un design di ricompensa debole. Per affrontare queste sfide, presentiamo VLA-R1, un VLA potenziato nel ragionamento che integra il Reinforcement Learning from Verifiable Rewards (RLVR) con il Group Relative Policy Optimization (GRPO) per ottimizzare sistematicamente sia il ragionamento che l'esecuzione. Nello specifico, progettiamo una strategia post-addestramento basata su RLVR con ricompense verificabili per l'allineamento delle regioni, la coerenza della traiettoria e la formattazione dell'output, rafforzando così la robustezza del ragionamento e l'accuratezza dell'esecuzione. Inoltre, sviluppiamo VLA-CoT-13K, un dataset di alta qualità che fornisce una supervisione a catena del pensiero esplicitamente allineata con annotazioni di affordance e traiettoria. Inoltre, valutazioni estensive su piattaforme in-dominio, out-of-dominio, di simulazione e robot reali dimostrano che VLA-R1 raggiunge una generalizzazione e una performance nel mondo reale superiori rispetto ai precedenti metodi VLA. Prevediamo di rilasciare il modello, il codice e il dataset in seguito alla pubblicazione di questo lavoro. Codice: https://github.com/GigaAI-research/VLA-R1. Sito web: https://gigaai-research.github.io/VLA-R1.
English
Vision-Language-Action (VLA) models aim to unify perception, language
understanding, and action generation, offering strong cross-task and
cross-scene generalization with broad impact on embodied AI. However, current
VLA models often lack explicit step-by-step reasoning, instead emitting final
actions without considering affordance constraints or geometric relations.
Their post-training pipelines also rarely reinforce reasoning quality, relying
primarily on supervised fine-tuning with weak reward design. To address these
challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates
Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative
Policy Optimization (GRPO) to systematically optimize both reasoning and
execution. Specifically, we design an RLVR-based post-training strategy with
verifiable rewards for region alignment, trajectory consistency, and output
formatting, thereby strengthening reasoning robustness and execution accuracy.
Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides
chain-of-thought supervision explicitly aligned with affordance and trajectory
annotations. Furthermore, extensive evaluations on in-domain, out-of-domain,
simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior
generalization and real-world performance compared to prior VLA methods. We
plan to release the model, code, and dataset following the publication of this
work. Code: https://github.com/GigaAI-research/VLA-R1. Website:
https://gigaai-research.github.io/VLA-R1.