VLingNav: Navigazione Incorporata con Ragionamento Adattivo e Memoria Linguistica Assistita Visivamente

Abstract

I modelli VLA hanno dimostrato un potenziale promettente nella navigazione embodiata unificando percezione e pianificazione, ereditando al contempo le forti capacità di generalizzazione dei grandi modelli linguistico-visivi (VLM). Tuttavia, la maggior parte dei modelli VLA esistenti si basa su mappature reattive dirette dalle osservazioni alle azioni, carenti delle capacità di ragionamento esplicito e della memoria persistente necessarie per compiti di navigazione complessi e a lungo termine. Per affrontare queste sfide, proponiamo VLingNav, un modello VLA per la navigazione embodiata basato su una cognizione fondata sul linguaggio. In primo luogo, ispirati dalla teoria del doppio processo della cognizione umana, introduciamo un meccanismo di ragionamento a catena (chain-of-thought) adattivo, che innesca dinamicamente il ragionamento esplicito solo quando necessario, consentendo all'agente di passare fluidamente tra un'esecuzione rapida e intuitiva e una pianificazione lenta e deliberata. In secondo luogo, per gestire le dipendenze spaziali a lungo termine, sviluppiamo un modulo di memoria linguistica assistita visivamente che costruisce una memoria semantica persistente e cross-modale, permettendo all'agente di richiamare osservazioni passate per prevenire esplorazioni ripetitive e inferire tendenze di movimento in ambienti dinamici. Per la fase di addestramento, costruiamo Nav-AdaCoT-2.9M, il più grande dataset di navigazione embodiata con annotazioni di ragionamento fino ad oggi, arricchito con annotazioni CoT adattive che inducono un paradigma di ragionamento in grado di adattare sia quando pensare sia a cosa pensare. Inoltre, incorporiamo una fase di apprendimento per rinforzo online guidata da un esperto, permettendo al modello di superare il puro apprendimento per imitazione e di acquisire comportamenti di navigazione più robusti e auto-esplorati. Esperimenti estensivi dimostrano che VLingNav raggiunge prestazioni all'avanguardia in un'ampia gamma di benchmark di navigazione embodiata. Notevolmente, VLingNav si trasferisce su piattaforme robotiche del mondo reale in maniera zero-shot, eseguendo vari compiti di navigazione e dimostrando una forte generalizzazione cross-dominio e cross-compito.

English

VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.

VLingNav: Navigazione Incorporata con Ragionamento Adattivo e Memoria Linguistica Assistita Visivamente

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Abstract

Support