VLingNav: Навигация в физическом окружении с адаптивным логическим выводом и визуально-ассистируемой лингвистической памятью
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory
January 13, 2026
Авторы: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu
cs.AI
Аннотация
Модели VLA продемонстрировали многообещающий потенциал в навигации с воплощенным агентом, объединяя восприятие и планирование и наследуя сильные способности к обобщению крупных языково-визуальных моделей. Однако большинство существующих моделей VLA полагаются на реактивные отображения непосредственно от наблюдений к действиям, не обладая явными возможностями логического вывода и устойчивой памятью, необходимыми для сложных задач навигации с длительным горизонтом планирования. Для решения этих проблем мы предлагаем VLingNav — модель VLA для навигации с воплощенным агентом, основанную на лингвистически обусловленной когниции. Во-первых, вдохновившись теорией двойственного процесса человеческого познания, мы вводим адаптивный механизм цепи рассуждений, который динамически активирует явное логическое рассуждение только при необходимости, позволяя агенту плавно переключаться между быстрым интуитивным выполнением и медленным обдуманным планированием. Во-вторых, для обработки пространственных зависимостей с длительным горизонтом мы разрабатываем визуально-вспомогательный лингвистический модуль памяти, который создает устойчивую кросс-модальную семантическую память, позволяя агенту вспоминать прошлые наблюдения для предотвращения повторного исследования и выявлять тенденции перемещения в динамических средах. Что касается методики обучения, мы создали Nav-AdaCoT-2.9M — крупнейший на сегодняшний день набор данных по навигации с воплощенным агентом, содержащий аннотации логических рассуждений и обогащенный адаптивными аннотациями цепи рассуждений, которые индуцируют парадигму рассуждения, способную адаптировать как момент, так и предмет для размышлений. Кроме того, мы включаем этап обучения с подкреплением под руководством онлайн-эксперта, позволяя модели превзойти чистое имитационное обучение и приобрести более устойчивое, самостоятельно исследуемое навигационное поведение. Многочисленные эксперименты демонстрируют, что VLingNav достигает наилучших результатов в широком спектре бенчмарков навигации с воплощенным агентом. Примечательно, что VLingNav переносится на реальные роботизированные платформы в режиме zero-shot, выполняя различные навигационные задачи и демонстрируя высокую степень междоменной и межзадачной обобщающей способности.
English
VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.