ChatPaper.aiChatPaper

VLingNav: Verkörpertes Navigieren mit adaptiver Entscheidungsfindung und visuell-gestütztem Sprachgedächtnis

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

January 13, 2026
papers.authors: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu
cs.AI

papers.abstract

VLA-Modelle haben ein vielversprechendes Potenzial in der embodied Navigation gezeigt, indem sie Wahrnehmung und Planung vereinen und dabei die starken Generalisierungsfähigkeiten großer VLM erben. Die meisten bestehenden VLA-Modelle stützen sich jedoch auf reaktive Abbildungen direkt von Beobachtungen zu Aktionen, wodurch ihnen die expliziten Schlussfolgerungsfähigkeiten und das persistente Gedächtnis fehlen, die für komplexe, langfristige Navigationsaufgaben erforderlich sind. Um diese Herausforderungen zu bewältigen, schlagen wir VLingNav vor, ein VLA-Modell für embodied Navigation, das auf sprachlich gesteuerter Kognition basiert. Erstens führen wir, inspiriert von der Dual-Prozess-Theorie der menschlichen Kognition, einen adaptiven Chain-of-Thought-Mechanismus ein, der explizites Schlussfolgern nur bei Bedarf dynamisch auslöst. Dies ermöglicht es dem Agenten, fließend zwischen schneller, intuitiver Ausführung und langsamer, bewusster Planung zu wechseln. Zweitens entwickeln wir zur Bewältigung langfristiger räumlicher Abhängigkeiten ein visuell gestütztes linguistisches Gedächtnismodul, das ein persistentes, cross-modales semantisches Gedächtnis aufbaut. Dies befähigt den Agenten, vergangene Beobachtungen abzurufen, um wiederholte Exploration zu vermeiden, und Bewegungstrends für dynamische Umgebungen abzuleiten. Für das Training haben wir Nav-AdaCoT-2.9M konstruiert, den bisher größten embodied Navigationsdatensatz mit Reasoning-Annotationen, angereichert mit adaptiven CoT-Annotationen, die ein Reasoning-Paradigma induzieren, das sowohl anpasst, wann gedacht wird, als auch worüber gedacht wird. Darüber hinaus integrieren wir eine Phase des Online-Reinforcement-Learnings mit expertengeführter Lenkung, die es dem Modell ermöglicht, reine Imitationslernverfahren zu übertreffen und robustere, selbst-explorierte Navigationsverhalten zu erlernen. Umfangreiche Experimente belegen, dass VLingNav state-of-the-art Leistung in einer Vielzahl von embodied Navigations-Benchmarks erreicht. Bemerkenswerterweise überträgt sich VLingNav in Zero-Shot-Manier auf reale Robotikplattformen, führt verschiedene Navigationsaufgaben aus und demonstriert eine starke domänen- und aufgabenübergreifende Generalisierung.
English
VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.
PDF60January 15, 2026