MobileVLA-R1: Reforzando Visión-Lenguaje-Acción para Robots Móviles
MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
November 22, 2025
Autores: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang
cs.AI
Resumen
La traducción de instrucciones en lenguaje natural a control continuo para robots cuadrúpedos sigue siendo un desafío fundamental en visión, lenguaje y acción. Los métodos existentes tienen dificultades para conectar el razonamiento semántico de alto nivel con la actuación de bajo nivel, lo que genera una traducción inestable y una generalización débil en entornos reales. Para abordar estos problemas, presentamos MobileVLA-R1, un marco unificado de visión-lenguaje-acción que permite un razonamiento explícito y un control continuo para robots cuadrúpedos. Construimos MobileVLA-CoT, un conjunto de datos a gran escala de cadena de pensamiento (CoT) multigranular para trayectorias corporizadas, que proporciona una supervisión de razonamiento estructurado para la alineación. Sobre esta base, introducimos un paradigma de entrenamiento en dos etapas que combina la alineación supervisada de CoT con el aprendizaje por refuerzo GRPO para mejorar la consistencia del razonamiento, la estabilidad del control y la ejecución a largo plazo. Evaluaciones exhaustivas en tareas de VLN y VLA demuestran un rendimiento superior frente a líneas de base sólidas, con una mejora de aproximadamente el 5%. El despliegue en el mundo real en un robot cuadrúpedo valida un rendimiento robusto en entornos complejos. Código: https://github.com/AIGeeksGroup/MobileVLA-R1. Sitio web: https://aigeeksgroup.github.io/MobileVLA-R1.
English
Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.