ChatPaper.aiChatPaper

MobileVLA-R1: Versterking van Visie-Taal-Actie voor Mobiele Robots

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

November 22, 2025
Auteurs: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang
cs.AI

Samenvatting

Het vertalen van natuurlijke-taalinstructies naar continue aansturing voor viervoetige robots blijft een fundamentele uitdaging in vision-language-action. Bestaande methoden slagen er niet in om hoogwaardige semantische redenering en laagwaardige actuering met elkaar te verbinden, wat leidt tot instabiele grounding en zwakke generalisatie in de echte wereld. Om deze problemen aan te pakken, presenteren we MobileVLA-R1, een uniform vision-language-action-framework dat expliciete redenering en continue aansturing voor viervoetige robots mogelijk maakt. We construeren MobileVLA-CoT, een grootschalige dataset met multi-granulariteit chain-of-thought (CoT) voor belichaamde trajecten, die gestructureerde redeneersupervisie biedt voor alignment. Gebaseerd op deze fundering introduceren we een tweefasentrainingsparadigma dat supervised CoT-alignment combineert met GRPO-versterkingsleren om de consistentie van redenering, stabiliteit van aansturing en uitvoering over lange tijdshorizonnen te verbeteren. Uitgebreide evaluaties op VLN- en VLA-taken tonen superieure prestaties aan ten opzichte van sterke baselines, met een verbetering van ongeveer 5%. Inzet in de echte wereld op een viervoetige robot valideert robuuste prestaties in complexe omgevingen. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
English
Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
PDF52December 1, 2025