ChatPaper.aiChatPaper

MobileVLA-R1: Усиление взаимодействия «зрение-язык-действие» для мобильных роботов

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

November 22, 2025
Авторы: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang
cs.AI

Аннотация

Преобразование инструкций на естественном языке в непрерывное управление для четвероногих роботов остается фундаментальной проблемой в области "видение-язык-действие". Существующие методы испытывают трудности с объединением семантических рассуждений высокого уровня и низкоуровневой актуации, что приводит к нестабильному заземлению и слабой обобщающей способности в реальных условиях. Для решения этих проблем мы представляем MobileVLA-R1 — унифицированную систему "видение-язык-действие", которая обеспечивает явное логическое рассуждение и непрерывное управление для четвероногих роботов. Мы создали MobileVLA-CoT, масштабный набор данных с цепочкой мыслей (Chain-of-Thought, CoT) различной гранулярности для воплощенных траекторий, который предоставляет структурированный надзор для выравнивания. На этой основе мы вводим двухэтапную парадигму обучения, сочетающую контролируемое выравнивание по CoT с обучением с подкреплением методом GRPO для повышения согласованности рассуждений, стабильности управления и выполнения долгосрочных задач. Обширные оценки на задачах VLN и VLA демонстрируют превосходную производительность по сравнению с сильными базовыми методами, с улучшением примерно на 5%. Развертывание в реальном мире на четвероногом роботе подтверждает надежную работу в сложных условиях. Код: https://github.com/AIGeeksGroup/MobileVLA-R1. Сайт: https://aigeeksgroup.github.io/MobileVLA-R1.
English
Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
PDF52December 1, 2025