ChatPaper.aiChatPaper

VLingNav: Belichaamde Navigatie met Adaptief Redeneren en Visueel-Ondersteund Linguïstisch Geheugen

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

January 13, 2026
Auteurs: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu
cs.AI

Samenvatting

VLA-modellen hebben veelbelovend potentieel getoond in belichaamde navigatie door perceptie en planning te verenigen, terwijl ze de sterke generalisatievermogens van grote VLM's erven. De meeste bestaande VLA-modellen vertrouwen echter op reactieve mapping direct van observaties naar acties, waarbij ze de expliciete redeneervermogens en persistente geheugen die nodig zijn voor complexe, langetermijnnavigatietaken missen. Om deze uitdagingen aan te pakken, stellen we VLingNav voor, een VLA-model voor belichaamde navigatie gebaseerd op taalkundig-gestuurde cognitie. Ten eerste, geïnspireerd door de dual-process theorie van menselijke cognitie, introduceren we een adaptief chain-of-thought-mechanisme, dat expliciet redeneren dynamisch activeert wanneer nodig, waardoor de agent soepel kan schakelen tussen snelle, intuïtieve uitvoering en langzame, weloverwogen planning. Ten tweede, om langetermijnruimtelijke afhankelijkheden te hanteren, ontwikkelen we een visueel-ondersteunde taalkundige geheugenmodule die een persistent, cross-modale semantisch geheugen opbouwt, waardoor de agent eerdere observaties kan herinneren om repetitieve verkenning te voorkomen en bewegingspatronen kan afleiden voor dynamische omgevingen. Voor het trainingsrecept construeren we Nav-AdaCoT-2.9M, de grootste belichaamde navigatiedataset met redeneerannotaties tot nu toe, verrijkt met adaptieve CoT-annotaties die een redeneerparadigma induceren dat zowel kan aanpassen wannéér als waaráán gedacht moet worden. Bovendien integreren we een online expert-gestuurde reinforcement learning-fase, waardoor het model pure imitatieleren kan overstijgen en robuustere, zelf-verkende navigatiegedragingen kan verwerven. Uitgebreide experimenten tonen aan dat VLingNav state-of-the-art prestaties bereikt op een breed scala aan belichaamde navigatiebenchmarks. Opmerkelijk is dat VLingNav zich op een zero-shot-manier transferreert naar echte robotplatforms, waarbij het diverse navigatietaken uitvoert en sterke cross-domein en cross-taak generalisatie demonstreert.
English
VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.
PDF60January 15, 2026