ChatPaper.aiChatPaper

MobileVLA-R1: モバイルロボットのための視覚・言語・行動連携の強化

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

November 22, 2025
著者: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang
cs.AI

要旨

自然言語による指示を四脚ロボットの連続制御に接地することは、ビジョン言語行動における根本的な課題である。既存手法は、高レベルの意味推論と低レベルの駆動を結びつけることに難があり、不安定な接地と実世界での弱い一般化を招いていた。これらの課題に対処するため、四脚ロボットのための明示的推論と連続制エージェントを可能にする統合ビジョン言語行動フレームワーク、MobileVLA-R1を提案する。我々は、具身化軌跡のためのマルチ粒度チェーン・オブ・ソート(CoT)からなる大規模データセットMobileVLA-CoTを構築し、アライメントのための構造化された推論監督を提供する。この基盤に立脚し、教師ありCoTアライメントとGRPO強化学習を組み合わせた2段階トレーニングパラダイムを導入し、推論の一貫性、制御の安定性、長期実行を強化する。VLNおよびVLAタスクにおける広範な評価は、強力なベースラインを約5%上回る優れた性能を示している。四脚ロボットでの実世界デプロイメントは、複雑な環境下でのロバストな性能を実証する。コード: https://github.com/AIGeeksGroup/MobileVLA-R1. ウェブサイト: https://aigeeksgroup.github.io/MobileVLA-R1.
English
Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
PDF52December 1, 2025