VLingNav: Navegação Corporificada com Raciocínio Adaptativo e Memória Linguística Assistida por Visão

Resumo

Os modelos VLA têm demonstrado potencial promissor na navegação incorporada ao unificar percepção e planeamento, herdando as fortes capacidades de generalização dos grandes VLMs. No entanto, a maioria dos modelos VLA existentes baseia-se em mapeamentos reativos diretos de observações para ações, carecendo das capacidades de raciocínio explícito e da memória persistente necessárias para tarefas de navegação complexas e de longo horizonte. Para enfrentar estes desafios, propomos o VLingNav, um modelo VLA para navegação incorporada fundamentado na cognição orientada linguisticamente. Primeiro, inspirados pela teoria do processo duplo da cognição humana, introduzimos um mecanismo adaptativo de cadeia de pensamento (chain-of-thought), que aciona dinamicamente o raciocínio explícito apenas quando necessário, permitindo que o agente alterne fluentemente entre uma execução rápida e intuitiva e um planeamento lento e deliberado. Segundo, para lidar com dependências espaciais de longo horizonte, desenvolvemos um módulo de memória linguística assistido visualmente que constrói uma memória semântica persistente e cross-modal, permitindo ao agente recordar observações passadas para evitar exploração repetitiva e inferir tendências de movimento em ambientes dinâmicos. Para a receita de treino, construímos o Nav-AdaCoT-2.9M, o maior conjunto de dados de navegação incorporada com anotações de raciocínio até à data, enriquecido com anotações de CoT adaptativas que induzem um paradigma de raciocínio capaz de ajustar tanto quando pensar como sobre o que pensar. Adicionalmente, incorporamos uma fase de aprendizagem por reforço online guiada por especialistas, permitindo que o modelo ultrapasse a aprendizagem por imitação pura e adquira comportamentos de navegação mais robustos e autoexplorados. Experiências extensivas demonstram que o VLingNav alcança um desempenho state-of-the-art numa ampla gama de benchmarks de navegação incorporada. Notavelmente, o VLingNav transfere-se para plataformas robóticas do mundo real de forma zero-shot, executando várias tarefas de navegação e demonstrando uma forte generalização cross-domínio e cross-tarefa.

English

VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.

VLingNav: Navegação Corporificada com Raciocínio Adaptativo e Memória Linguística Assistida por Visão

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Resumo

Support