ChatPaper.aiChatPaper

VLingNav : Navigation Incarnée avec Raisonnement Adaptatif et Mémoire Linguistique Assistée Visuellement

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

January 13, 2026
papers.authors: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu
cs.AI

papers.abstract

Les modèles VLA ont montré un potentiel prometteur en navigation incarnée en unifiant la perception et la planification, tout en héritant des fortes capacités de généralisation des grands modèles visio-linguistiques. Cependant, la plupart des modèles VLA existants reposent sur des mappages réactifs directs des observations aux actions, manquant des capacités de raisonnement explicite et de mémoire persistante nécessaires aux tâches de navigation complexes à long terme. Pour relever ces défis, nous proposons VLingNav, un modèle VLA pour la navigation incarnée fondé sur une cognition pilotée par le langage. Premièrement, inspirés par la théorie du double processus de la cognition humaine, nous introduisons un mécanisme adaptatif de raisonnement en chaîne qui déclenche dynamiquement un raisonnement explicite uniquement lorsque nécessaire, permettant à l'agent de passer fluidement entre une exécution rapide et intuitive et une planification lente et réfléchie. Deuxièmement, pour gérer les dépendances spatiales à long terme, nous développons un module de mémoire linguistique assistée visuellement qui construit une mémoire sémantique multimodale persistante, permettant à l'agent de se souvenir des observations passées pour éviter une exploration répétitive et d'inférer les tendances de mouvement dans des environnements dynamiques. Pour l'entraînement, nous construisons Nav-AdaCoT-2.9M, le plus grand jeu de données de navigation incarnée avec annotations de raisonnement à ce jour, enrichi d'annotations de raisonnement adaptatif qui induisent un paradigme de raisonnement capable d'ajuster à la fois quand réfléchir et à quoi réfléchir. De plus, nous incorporons une phase d'apprentissage par renforcement en ligne guidée par un expert, permettant au modèle de dépasser l'apprentissage par imitation pur et d'acquérir des comportements de navigation plus robustes et auto-explorés. Des expériences approfondies démontrent que VLingNav atteint des performances state-of-the-art sur un large éventail de benchmarks de navigation incarnée. Notamment, VLingNav se transfère à des plateformes robotiques réelles de manière zero-shot, exécutant diverses tâches de navigation et démontrant une forte généralisation inter-domaines et inter-tâches.
English
VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.
PDF60January 15, 2026