ChatPaper.aiChatPaper

Langsam am Boden, schnell in Bewegung: Ein Dual-System-Grundmodell für generalisierbare visuelle und sprachliche Navigation

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

December 9, 2025
papers.authors: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI

papers.abstract

Während neuere große visuell-sprachliche Modelle (VLMs) die Generalisierung in der visuell-sprachlichen Navigation (VLN) verbessert haben, stützen sich bestehende Methoden typischerweise auf End-to-End-Pipelines, die visuell-sprachliche Eingaben direkt auf kurzfristige diskrete Aktionen abbilden. Solche Ansätze erzeugen oft fragmentierte Bewegungen, verursachen hohe Latenzzeiten und haben Schwierigkeiten mit realen Herausforderungen wie der dynamischen Hindernisvermeidung. Wir stellen DualVLN vor, das erste Dual-System-VLN-Basismodell, das hochrangiges Reasoning mit niederrangiger Aktionsausführung synergetisch integriert. System 2, ein auf einem VLM basierender globaler Planer, „denkt langsam“, indem es mittelfristige Wegpunkt-Ziele durch bildgestütztes Reasoning vorhersagt. System 1, eine leichte, multimodal konditionierte Diffusion-Transformer-Policy, „handelt schnell“, indem es sowohl explizite Pixel-Ziele als auch latente Merkmale von System 2 nutzt, um glatte und präzise Trajektorien zu erzeugen. Das Dual-System-Design ermöglicht eine robuste Echtzeitsteuerung und adaptive lokale Entscheidungsfindung in komplexen, dynamischen Umgebungen. Durch die Entkopplung des Trainings behält das VLM seine Generalisierungsfähigkeit, während System 1 eine interpretierbare und effektive lokale Navigation erreicht. DualVLN übertrifft bisherige Methoden in allen VLN-Benchmarks, und Realexperimente demonstrieren robuste Langzeitplanung und Echtzeit-Anpassungsfähigkeit in dynamischen Umgebungen.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.
PDF31December 11, 2025