ChatPaper.aiChatPaper

MobileVLA-R1: Rafforzamento di Visione-Linguaggio-Azione per Robot Mobili

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

November 22, 2025
Autori: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang
cs.AI

Abstract

L'ancoraggio di istruzioni in linguaggio naturale a comandi di controllo continuo per robot quadrupedi rimane una sfida fondamentale nel campo visione-linguaggio-azione. I metodi esistenti faticano a colmare il divario tra il ragionamento semantico di alto livello e l'attuazione di basso livello, portando a un ancoraggio instabile e a una debole generalizzazione nel mondo reale. Per affrontare questi problemi, presentiamo MobileVLA-R1, un framework unificato visione-linguaggio-azione che abilita un ragionamento esplicito e un controllo continuo per robot quadrupedi. Costruiamo MobileVLA-CoT, un dataset su larga scala di catene di pensiero (CoT) multi-granularità per traiettorie embodied, fornendo una supervisione strutturata al ragionamento per l'allineamento. Su questa base, introduciamo un paradigma di addestramento in due fasi che combina l'allineamento supervisionato CoT con l'apprendimento per rinforzo GRPO per migliorare la coerenza del ragionamento, la stabilità del controllo e l'esecuzione su orizzonti lunghi. Valutazioni estensive su compiti VLN e VLA dimostrano prestazioni superiori rispetto a baseline solide, con un miglioramento di circa il 5%. Il dispiegamento nel mondo reale su un robot quadrupede convalida prestazioni robuste in ambienti complessi. Codice: https://github.com/AIGeeksGroup/MobileVLA-R1. Sito web: https://aigeeksgroup.github.io/MobileVLA-R1.
English
Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
PDF52December 1, 2025