VLingNav: Navegación Corporizada con Razonamiento Adaptativo y Memoria Lingüística Asistida Visualmente
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory
January 13, 2026
Autores: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu
cs.AI
Resumen
Los modelos VLA han demostrado un potencial prometedor en la navegación embebida al unificar la percepción y la planificación, heredando las fuertes capacidades de generalización de los grandes modelos de lenguaje y visión (VLM). Sin embargo, la mayoría de los modelos VLA existentes se basan en mapeos reactivos que van directamente de las observaciones a las acciones, careciendo de las capacidades de razonamiento explícito y la memoria persistente necesarias para tareas de navegación complejas y de largo horizonte. Para abordar estos desafíos, proponemos VLingNav, un modelo VLA para la navegación embebida fundamentado en una cognición basada en la lingüística. En primer lugar, inspirados por la teoría del proceso dual de la cognición humana, introducimos un mecanismo de cadena de pensamiento adaptativa, que activa dinámicamente el razonamiento explícito solo cuando es necesario, permitiendo que el agente cambie fluidamente entre una ejecución rápida e intuitiva y una planificación lenta y deliberada. En segundo lugar, para manejar las dependencias espaciales de largo horizonte, desarrollamos un módulo de memoria lingüística asistida por visión que construye una memoria semántica persistente y cross-modal, permitiendo al agente recordar observaciones pasadas para evitar una exploración repetitiva e inferir tendencias de movimiento en entornos dinámicos. Para la metodología de entrenamiento, construimos Nav-AdaCoT-2.9M, el conjunto de datos de navegación embebida con anotaciones de razonamiento más grande hasta la fecha, enriquecido con anotaciones de CoT adaptativa que inducen un paradigma de razonamiento capaz de ajustar tanto cuándo pensar como en qué pensar. Además, incorporamos una etapa de aprendizaje por refuerzo guiado por un experto en línea, permitiendo que el modelo supere el aprendizaje por imitación puro y adquiera comportamientos de navegación más robustos y auto-explorados. Experimentos exhaustivos demuestran que VLingNav logra un rendimiento state-of-the-art en una amplia gama de benchmarks de navegación embebida. Cabe destacar que VLingNav se transfiere a plataformas robóticas del mundo real de manera zero-shot, ejecutando diversas tareas de navegación y demostrando una fuerte generalización cross-dominio y cross-tarea.
English
VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.