VLA-R1: Mejora del razonamiento en modelos de visión-lenguaje-acción
VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
October 2, 2025
Autores: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) buscan unificar la percepción, la comprensión del lenguaje y la generación de acciones, ofreciendo una fuerte generalización entre tareas y escenarios con un impacto significativo en la inteligencia artificial encarnada. Sin embargo, los modelos VLA actuales a menudo carecen de un razonamiento explícito paso a paso, emitiendo acciones finales sin considerar restricciones de affordance o relaciones geométricas. Además, sus pipelines posteriores al entrenamiento rara vez refuerzan la calidad del razonamiento, dependiendo principalmente de un ajuste fino supervisado con un diseño de recompensas débil. Para abordar estos desafíos, presentamos VLA-R1, un VLA mejorado con razonamiento que integra el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) junto con la Optimización de Políticas Relativas por Grupos (GRPO, por sus siglas en inglés) para optimizar sistemáticamente tanto el razonamiento como la ejecución. Específicamente, diseñamos una estrategia de post-entrenamiento basada en RLVR con recompensas verificables para la alineación de regiones, la consistencia de trayectorias y el formato de salida, fortaleciendo así la robustez del razonamiento y la precisión de la ejecución. Además, desarrollamos VLA-CoT-13K, un conjunto de datos de alta calidad que proporciona supervisión de cadena de pensamiento explícitamente alineada con anotaciones de affordance y trayectorias. Asimismo, evaluaciones exhaustivas en plataformas de dominio interno, dominio externo, simulación y robots reales demuestran que VLA-R1 logra una generalización y un rendimiento en el mundo real superiores en comparación con métodos VLA anteriores. Planeamos liberar el modelo, el código y el conjunto de datos tras la publicación de este trabajo. Código: https://github.com/GigaAI-research/VLA-R1. Sitio web: https://gigaai-research.github.io/VLA-R1.
English
Vision-Language-Action (VLA) models aim to unify perception, language
understanding, and action generation, offering strong cross-task and
cross-scene generalization with broad impact on embodied AI. However, current
VLA models often lack explicit step-by-step reasoning, instead emitting final
actions without considering affordance constraints or geometric relations.
Their post-training pipelines also rarely reinforce reasoning quality, relying
primarily on supervised fine-tuning with weak reward design. To address these
challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates
Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative
Policy Optimization (GRPO) to systematically optimize both reasoning and
execution. Specifically, we design an RLVR-based post-training strategy with
verifiable rewards for region alignment, trajectory consistency, and output
formatting, thereby strengthening reasoning robustness and execution accuracy.
Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides
chain-of-thought supervision explicitly aligned with affordance and trajectory
annotations. Furthermore, extensive evaluations on in-domain, out-of-domain,
simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior
generalization and real-world performance compared to prior VLA methods. We
plan to release the model, code, and dataset following the publication of this
work. Code: https://github.com/GigaAI-research/VLA-R1. Website:
https://gigaai-research.github.io/VLA-R1.