MobileVLA-R1: Verstärkung von Vision-Language-Action für mobile Roboter
MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
November 22, 2025
papers.authors: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang
cs.AI
papers.abstract
Die Umsetzung natürlicher Sprachinstruktionen in kontinuierliche Steuerung für vierbeinige Roboter bleibt eine grundlegende Herausforderung im Bereich Vision-Language-Action. Bestehende Methoden scheitern oft daran, semantische Hochlevel-Planung mit Low-Level-Aktorik zu verbinden, was zu instabiler Umsetzung und schwacher Generalisierung in realen Umgebungen führt. Um diese Probleme zu adressieren, stellen wir MobileVLA-R1 vor – ein einheitliches Vision-Language-Action-Framework, das explizites Reasoning und kontinuierliche Steuerung für vierbeinige Roboter ermöglicht. Wir erstellen MobileVLA-CoT, einen groß angelegten Datensatz mit multi-granularen Chain-of-Thought (CoT) für verkörperte Trajektorien, der strukturierte Reasoning-Aufsicht für die Ausrichtung bereitstellt. Auf dieser Grundlage führen wir ein zweistufiges Trainingsparadigma ein, das überwachte CoT-Ausrichtung mit GRPO-Verstärkungslernen kombiniert, um Reasoning-Konsistenz, Steuerungsstabilität und langfristige Ausführung zu verbessern. Umfangreiche Auswertungen auf VLN- und VLA-Aufgaben zeigen eine überlegene Leistung gegenüber starken Baselines mit einer Verbesserung von etwa 5 %. Der Einsatz in der realen Welt auf einem vierbeinigen Roboter validiert die robuste Leistung in komplexen Umgebungen. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
English
Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.