ChatPaper.aiChatPaper

Lento a Terra, Veloce nel Movimento: Un Modello Fondamentale a Doppio Sistema per la Navigazione Visione-e-Linguaggio Generalizzabile

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

December 9, 2025
Autori: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI

Abstract

Sebbene i recenti modelli visione-linguaggio (VLM) di grandi dimensioni abbiano migliorato la generalizzazione nella navigazione visione-linguaggio (VLN), i metodi esistenti si basano tipicamente su pipeline end-to-end che mappano direttamente gli input visivo-linguistici ad azioni discrete a breve orizzonte. Tali progettazioni producono spesso movimenti frammentati, comportano un'elevata latenza e faticano a gestire le sfide del mondo reale, come l'evitamento dinamico degli ostacoli. Proponiamo DualVLN, il primo modello foundation VLN a sistema duale che integra sinergicamente il ragionamento di alto livello con l'esecuzione di azioni di basso livello. Il Sistema 2, un pianificatore globale basato su VLM, "ragiona con lentezza" prevedendo waypoint a medio termine tramite un ragionamento ancorato alle immagini. Il Sistema 1, una politica basata su Diffusion Transformer, leggera e condizionata multimodalmente, "si muove con rapidità" sfruttando sia obiettivi pixel espliciti che feature latenti dal Sistema 2 per generare traiettorie fluide e accurate. La progettazione a sistema duale consente un controllo robusto in tempo reale e un processo decisionale locale adattivo in ambienti complessi e dinamici. Disaccoppiando l'addestramento, il VLM mantiene la sua generalizzazione, mentre il Sistema 1 realizza una navigazione locale interpretabile ed efficace. DualVLN supera i metodi precedenti in tutti i benchmark VLN e gli esperimenti nel mondo reale dimostrano una pianificazione robusta a lungo orizzonte e un'adattabilità in tempo reale in ambienti dinamici.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.
PDF31December 11, 2025