ChatPaper.aiChatPaper

VLingNav: 적응형 추론 및 시각 기반 언어 메모리를 활용한 구현형 내비게이션

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

January 13, 2026
저자: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu
cs.AI

초록

VLA 모델은 대규모 VLM의 강력한 일반화 능력을 계승하면서 인식과 계획을 통합함으로써 구현형 내비게이션 분야에서 유망한 잠재력을 보여주고 있습니다. 그러나 기존 VLA 모델 대부분은 관측에서 행동으로의 반응적 매핑에 의존하여, 복잡하고 장기적인 내비게이션 작업에 필요한 명시적 추론 능력과 지속적 메모리가 부족합니다. 이러한 문제를 해결하기 위해 우리는 언어 기반 인지에 기반한 구현형 내비게이션용 VLA 모델인 VLingNav를 제안합니다. 첫째, 인간 인지의 이중 과정 이론에서 영감을 받아 적응형 사고의 사슬(Chain-of-Thought) 메커니즘을 도입했습니다. 이는 필요할 때만 명시적 추론을 동적으로 촉발하여 에이전트가 빠르고 직관적인 실행과 느리고 신중한 계획 사이를 유연하게 전환할 수 있게 합니다. 둘째, 장기간의 공간적 의존성을 처리하기 위해 시각 지원 언어 메모리 모듈을 개발했습니다. 이는 지속적이고 교차 모드적인 의미론적 메모리를 구축하여 에이전트가 과거 관측을 상기하여 반복적 탐색을 방지하고 동적 환경에서 이동 경향을 추론할 수 있게 합니다. 학습 방법론으로는, 현재까지 역대 최대 규모의 추론 주석이 달린 구현형 내비게이션 데이터셋인 Nav-AdaCoT-2.9M을 구축했습니다. 이 데이터셋은 언제 생각할지와 무엇에 대해 생각할지를 모두 조정할 수 있는 추론 패러다임을 유도하는 적응형 CoT 주석으로 풍부하게 보강되었습니다. 또한 온라인 전문가 지도 강화학습 단계를 도입하여 모델이 순수 모방 학습을 넘어서 더욱 견고하고 자체 탐색된 내비게이션 행동을 습득할 수 있게 했습니다. 광범위한 실험을 통해 VLingNav가 다양한 구현형 내비게이션 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 특히, VLingNav는 제로샷 방식으로 실제 로봇 플랫폼에 전이되어 다양한 내비게이션 작업을 수행하며 강력한 크로스도메인 및 크로스태스크 일반화 능력을 보여줍니다.
English
VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.
PDF60January 15, 2026