MobileVLA-R1 : Renforcement Vision-Langage-Action pour les Robots Mobiles
MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
November 22, 2025
papers.authors: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang
cs.AI
papers.abstract
L'ancrage d'instructions en langage naturel dans un contrôle continu pour les robots quadrupèdes reste un défi fondamental dans le domaine vision-langage-action. Les méthodes existantes peinent à faire le lien entre le raisonnement sémantique de haut niveau et l'actionnement de bas niveau, ce qui conduit à un ancrage instable et à une faible généralisation dans le monde réel. Pour résoudre ces problèmes, nous présentons MobileVLA-R1, un framework unifié vision-langage-action qui permet un raisonnement explicite et un contrôle continu pour les robots quadrupèdes. Nous construisons MobileVLA-CoT, un jeu de données à grande échelle de chaîne de pensée multi-granularité pour les trajectoires incarnées, fournissant une supervision structurée du raisonnement pour l'alignement. Sur cette base, nous introduisons un paradigme d'entraînement en deux étapes qui combine un alignement supervisé par CoT avec un apprentissage par renforcement GRPO pour améliorer la cohérence du raisonnement, la stabilité du contrôle et l'exécution à long terme. Des évaluations approfondies sur les tâches VLN et VLA démontrent des performances supérieures à celles de bases de référence solides, avec une amélioration d'environ 5 %. Un déploiement dans le monde réel sur un robot quadrupède valide des performances robustes dans des environnements complexes. Code : https://github.com/AIGeeksGroup/MobileVLA-R1. Site web : https://aigeeksgroup.github.io/MobileVLA-R1.
English
Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.