ChatPaper.aiChatPaper

VLA-R1: Aprimorando o Raciocínio em Modelos Visão-Linguagem-Ação

VLA-R1: Enhancing Reasoning in Vision-Language-Action Models

October 2, 2025
Autores: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu
cs.AI

Resumo

Os modelos Visão-Linguagem-Ação (VLA) visam unificar percepção, compreensão de linguagem e geração de ações, oferecendo uma forte generalização entre tarefas e cenários, com um impacto amplo na IA incorporada. No entanto, os modelos VLA atuais frequentemente carecem de raciocínio explícito passo a passo, emitindo ações finais sem considerar restrições de affordance ou relações geométricas. Além disso, seus pipelines pós-treinamento raramente reforçam a qualidade do raciocínio, dependendo principalmente de ajuste fino supervisionado com design de recompensas fraco. Para enfrentar esses desafios, apresentamos o VLA-R1, um VLA aprimorado com raciocínio que integra Aprendizado por Reforço com Recompensas Verificáveis (RLVR) e Otimização de Política Relativa em Grupo (GRPO) para otimizar sistematicamente tanto o raciocínio quanto a execução. Especificamente, projetamos uma estratégia pós-treinamento baseada em RLVR com recompensas verificáveis para alinhamento de regiões, consistência de trajetória e formatação de saída, fortalecendo assim a robustez do raciocínio e a precisão da execução. Além disso, desenvolvemos o VLA-CoT-13K, um conjunto de dados de alta qualidade que fornece supervisão de cadeia de pensamento explicitamente alinhada com anotações de affordance e trajetória. Adicionalmente, avaliações extensas em plataformas de domínio interno, domínio externo, simulação e robôs reais demonstram que o VLA-R1 alcança uma generalização e desempenho no mundo real superiores em comparação com métodos VLA anteriores. Planejamos liberar o modelo, código e conjunto de dados após a publicação deste trabalho. Código: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
English
Vision-Language-Action (VLA) models aim to unify perception, language understanding, and action generation, offering strong cross-task and cross-scene generalization with broad impact on embodied AI. However, current VLA models often lack explicit step-by-step reasoning, instead emitting final actions without considering affordance constraints or geometric relations. Their post-training pipelines also rarely reinforce reasoning quality, relying primarily on supervised fine-tuning with weak reward design. To address these challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative Policy Optimization (GRPO) to systematically optimize both reasoning and execution. Specifically, we design an RLVR-based post-training strategy with verifiable rewards for region alignment, trajectory consistency, and output formatting, thereby strengthening reasoning robustness and execution accuracy. Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides chain-of-thought supervision explicitly aligned with affordance and trajectory annotations. Furthermore, extensive evaluations on in-domain, out-of-domain, simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior generalization and real-world performance compared to prior VLA methods. We plan to release the model, code, and dataset following the publication of this work. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
PDF72October 3, 2025