Lento no Solo, Rápido em Movimento: Um Modelo de Fundação de Sistema Duplo para Navegação Visual e Linguística Generalizável
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
December 9, 2025
Autores: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI
Resumo
Embora os modelos visão-linguagem (VLMs) recentes de grande escala tenham aprimorado a generalização na navegação visão-linguagem (VLN), os métodos existentes geralmente dependem de pipelines de ponta a ponta que mapeiam entradas visão-linguagem diretamente para ações discretas de curto prazo. Tais projetos frequentemente produzem movimentos fragmentados, incorrem em alta latência e lutam contra desafios do mundo real, como a evitação dinâmica de obstáculos. Propomos o DualVLN, o primeiro modelo de base VLN de sistema dual que integra sinergicamente o raciocínio de alto nível com a execução de ações de baixo nível. O Sistema 2, um planejador global baseado em VLM, "aterrissa lentamente" ao prever objetivos de waypoint de médio prazo por meio de raciocínio ancorado em imagem. O Sistema 1, uma política leve de Transformer de Difusão com condicionamento multimodal, "move-se rapidamente" ao alavancar tanto objetivos de pixel explícitos quanto características latentes do Sistema 2 para gerar trajetórias suaves e precisas. O projeto de sistema dual permite controle robusto em tempo real e tomada de decisão local adaptativa em ambientes complexos e dinâmicos. Ao desacoplar o treinamento, o VLM mantém sua generalização, enquanto o Sistema 1 alcança uma navegação local interpretável e eficaz. O DualVLN supera os métodos anteriores em todos os benchmarks de VLN, e experimentos no mundo real demonstram planejamento robusto de longo prazo e adaptabilidade em tempo real em ambientes dinâmicos.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.