Langzaam Observeren, Snel Bewegen: Een Dual-Systeem Fundamentmodel voor Generaliseerbaar Visie-en-Taal Navigeren
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
December 9, 2025
Auteurs: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI
Samenvatting
Hoewel recente grootschalige visie-taalmodellen (VLM's) de generalisatie in visie-taalnavigatie (VLN) hebben verbeterd, vertrouwen bestaande methoden typisch op end-to-end pijplijnen die visie-taalinputs direct afbeelden op kortetermijn discrete acties. Dergelijke ontwerpen produceren vaak gefragmenteerde bewegingen, veroorzaken hoge latentie en worstelen met real-world uitdagingen zoals het vermijden van dynamische obstakels. Wij stellen DualVLN voor, het eerste duale-systeem VLN-fundamentmodel dat hoogwaardige redenering synergetisch integreert met laagwaardige actie-uitvoering. Systeem 2, een op VLM gebaseerde globale planner, "groundt langzaam" door middellangetermijn waypoint-doelen te voorspellen via beeld-gestuurde redenering. Systeem 1, een lichtgewicht, multi-modale conditionering Diffusion Transformer policy, "beweegt snel" door zowel expliciete pixeldoelen als latente kenmerken van Systeem 2 te benutten om vloeiende en accurate trajecten te genereren. Het duale-systeem ontwerp maakt robuuste real-time controle en adaptieve lokale besluitvorming mogelijk in complexe, dynamische omgevingen. Door de training te ontkoppelen, behoudt de VLM zijn generalisatievermogen, terwijl Systeem 1 interpreteerbare en effectieve lokale navigatie bereikt. DualVLN overtreft eerdere methoden op alle VLN benchmarks, en real-world experimenten demonstreren robuuste langetermijnplanning en real-time aanpassingsvermogen in dynamische omgevingen.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.