Lent au Sol, Rapide en Mouvement : Un Modèle Fondationnel à Double Système pour la Navigation Vision-Langue Généralisable
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
December 9, 2025
papers.authors: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI
papers.abstract
Si les grands modèles vision-langage (VLM) récents ont amélioré la généralisation en navigation vision-langage (VLN), les méthodes existantes reposent généralement sur des pipelines de bout en bout qui mappent directement les entrées vision-langage vers des actions discrètes à court terme. De telles conceptions produisent souvent des mouvements fragmentés, entraînent une latence élevée et peinent à gérer les défis du monde réel comme l'évitement dynamique d'obstacles. Nous proposons DualVLN, le premier modèle fondation VLN à double système qui intègre de manière synergique un raisonnement de haut niveau avec une exécution d'actions de bas niveau. Le Système 2, un planificateur global basé sur un VLM, « ancre lentement » en prédisant des objectifs de points de passage à moyen terme via un raisonnement ancré dans l'image. Le Système 1, une politique légère de Transformers à Diffusion conditionnée de manière multimodale, « se déplace rapidement » en exploitant à la fois des objectifs pixels explicites et des caractéristiques latentes du Système 2 pour générer des trajectoires fluides et précises. La conception à double système permet un contrôle robuste en temps réel et une prise de décision locale adaptative dans des environnements complexes et dynamiques. En découplant l'entraînement, le VLM conserve sa capacité de généralisation, tandis que le Système 1 réalise une navigation locale interprétable et efficace. DualVLN surpasse les méthodes antérieures sur tous les benchmarks VLN, et des expériences en monde réel démontrent une planification robuste à long terme et une adaptabilité en temps réel dans des environnements dynamiques.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.