Tierra Firme, Avance Rápido: Un Modelo Fundacional de Doble Sistema para Navegación Visión-Lenguaje Generalizable
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
December 9, 2025
Autores: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI
Resumen
Si bien los modelos de visión y lenguaje (VLM) recientes han mejorado la generalización en la navegación visión-lenguaje (VLN), los métodos existentes suelen depender de pipelines integrales que mapean las entradas de visión y lenguaje directamente a acciones discretas de corto alcance. Dichos diseños a menudo producen movimientos fragmentados, incurren en alta latencia y tienen dificultades con desafíos del mundo real, como la evitación dinámica de obstáculos. Proponemos DualVLN, el primer modelo base VLN de sistema dual que integra de forma sinérgica el razonamiento de alto nivel con la ejecución de acciones de bajo nivel. El Sistema 2, un planificador global basado en VLM, "se fundamenta lentamente" mediante la predicción de objetivos de puntos de referencia a medio plazo a través de un razonamiento basado en imágenes. El Sistema 1, una política de Transformador de Difusión ligera con condicionamiento multimodal, "se mueve rápidamente" aprovechando tanto objetivos de píxeles explícitos como características latentes del Sistema 2 para generar trayectorias suaves y precisas. El diseño de sistema dual permite un control robusto en tiempo real y una toma de decisiones local adaptativa en entornos complejos y dinámicos. Al desacoplar el entrenamiento, el VLM conserva su generalización, mientras que el Sistema 1 logra una navegación local interpretable y efectiva. DualVLN supera a los métodos anteriores en todos los benchmarks de VLN, y los experimentos en el mundo real demuestran una planificación robusta de largo alcance y una adaptabilidad en tiempo real en entornos dinámicos.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.