ChatPaper.aiChatPaper

Медленно на земле, быстро в движении: двухсистемная фундаментальная модель для обобщаемой навигации с использованием зрения и языка

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

December 9, 2025
Авторы: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI

Аннотация

Хотя недавние крупные визуально-языковые модели (VLM) улучшили обобщающую способность в навигации на основе зрения и языка (VLN), существующие методы обычно полагаются на сквозные конвейеры, которые напрямую отображают визуально-языковые входные данные в краткосрочные дискретные действия. Такие подходы часто приводят к фрагментированным движениям, создают высокую задержку и плохо справляются с реальными проблемами, такими как избегание динамических препятствий. Мы предлагаем DualVLN — первую базовую модель VLN с двухсистемной архитектурой, которая синергетически интегрирует высокоуровневое планирование с низкоуровневым выполнением действий. Система 2, глобальный планировщик на основе VLM, «медленно осмысливает» окружение, предсказывая среднесрочные целевые точки маршрута с помощью визуально-обоснованных рассуждений. Система 1, легковесная политика на основе диффузионного трансформера с мультимодальным условием, «движется быстро», используя как явные пиксельные цели, так и латентные признаки от Системы 2 для генерации плавных и точных траекторий. Двухсистемный дизайн обеспечивает надежное управление в реальном времени и адаптивное локальное принятие решений в сложных динамических средах. Благодаря раздельному обучению VLM сохраняет свою обобщающую способность, а Система 1 достигает интерпретируемой и эффективной локальной навигации. DualVLN превосходит предыдущие методы во всех тестах VLN, а эксперименты в реальном мире демонстрируют надежное долгосрочное планирование и адаптивность в динамических средах в реальном времени.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.
PDF31December 11, 2025