MobileVLA-R1: Reforçando Visão-Linguagem-Ação para Robôs Móveis

Resumo

A fundamentação de instruções em linguagem natural em controle contínuo para robôs quadrúpedes continua sendo um desafio fundamental na área de visão, linguagem e ação. Os métodos existentes lutam para conectar o raciocínio semântico de alto nível com a atuação de baixo nível, resultando em fundamentação instável e fraca generalização no mundo real. Para resolver esses problemas, apresentamos o MobileVLA-R1, um framework unificado de visão-linguagem-ação que permite raciocínio explícito e controle contínuo para robôs quadrúpedes. Construímos o MobileVLA-CoT, um conjunto de dados em larga escala de cadeia de pensamento (CoT) multi-granularidade para trajetórias corporificadas, fornecendo supervisão estruturada de raciocínio para alinhamento. Com base nessa fundação, introduzimos um paradigma de treinamento em dois estágios que combina o alinhamento supervisionado de CoT com o aprendizado por reforço GRPO para melhorar a consistência do raciocínio, a estabilidade do controle e a execução de longo prazo. Avaliações extensivas em tarefas de VLN e VLA demonstram desempenho superior em comparação com baselines robustas, com uma melhoria de aproximadamente 5%. A implantação no mundo real em um robô quadrúpede valida um desempenho robusto em ambientes complexos. Código: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.

English

Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.

MobileVLA-R1: Reforçando Visão-Linguagem-Ação para Robôs Móveis

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

Resumo

Support