ChatPaper.aiChatPaper

VLingNav:適応的推論と視覚支援型言語メモリを備えた身体化ナビゲーション

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

January 13, 2026
著者: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu
cs.AI

要旨

VLAモデルは、知覚と計画を統合しつつ大規模VLMの強力な一般化能力を継承することで、具身ナビゲーションにおいて有望な可能性を示している。しかし、既存のVLAモデルの多くは観察から行動への直接的な反応的写像に依存しており、複雑で長期的なナビゲーションタスクに必要な明示的な推論能力と永続的メモリを欠いている。これらの課題に対処するため、我々は言語駆動認知に基づく具身ナビゲーション用VLAモデル「VLingNav」を提案する。第一に、人間の認知における二重過程理論に着想を得て、必要な場合にのみ明示的推論を動的に起動する適応的連鎖思考機構を導入し、エージェントが素早い直感的実行と遅い熟慮的計画の間を流動的に切り替えられるようにする。第二に、長期的な空間的依存関係を扱うため、永続的でクロスモーダルな意味メモリを構築する視覚支援言語メモリモジュールを開発し、エージェントが過去の観察を想起して反復的な探索を防ぎ、動的環境における移動傾向を推論できるようにする。訓練手法としては、現在までで最大の推論注釈付き具身ナビゲーションデータセットであるNav-AdaCoT-2.9Mを構築し、いつ思考すべきかと何を思考すべきかの両方を調整可能な推論パラダイムを誘導する適応的CoT注釈で enriched にした。さらに、オンライン専門家誘導強化学習段階を組み込むことで、モデルが純粋な模倣学習を超え、よりロバストな自己探索ナビゲーション行動を獲得できるようにした。大規模な実験により、VLingNavが様々な具身ナビゲーションベンチマークで state-of-the-art の性能を達成することが実証された。特筆すべきは、VLingNavがゼロショットで実世界のロボットプラットフォームに転移し、様々なナビゲーションタスクを実行して強いクロスドメイン・クロスタスク一般化能力を示す点である。
English
VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.
PDF60January 15, 2026