グラウンド・スロー、ムーブ・ファスト:一般化可能な視覚言語ナビゲーションのためのデュアルシステム基盤モデル
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
December 9, 2025
著者: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI
要旨
近年の大規模視覚言語モデル(VLM)は視覚言語ナビゲーション(VLN)における汎化性能を向上させてきたが、既存手法の多くは、視覚言語入力を直接短期的な離散行動にマッピングするエンドツーエンドのパイプラインに依存している。このような設計では、断片的な動作が生じやすく、高レイテンシが発生し、動的障害物回避といった現実世界の課題に対処することが困難である。我々は、高次推論と低次行動実行を協調的に統合する、初のデュアルシステムVLN基盤モデルであるDualVLNを提案する。System 2はVLMベースの大域プランナーとして、画像に基づく推論により中期的なウェイポイント目標を予測するという「遅い接地」を行う。System 1は軽量なマルチモーダル条件付きDiffusion Transformerポリシーとして、System 2から得られる明示的なピクセル目標と潜在特徴の両方を活用し、滑らかで正確な軌道を生成するという「速い動作」を実現する。このデュアルシステム設計により、複雑で動的な環境におけるロバストなリアルタイム制御と適応的な局所意思決定が可能となる。訓練を分離することで、VLMはその汎化性能を保持し、System 1は解釈性が高く効果的な局所ナビゲーションを達成する。DualVLNは、全てのVLNベンチマークにおいて従来手法を凌駕し、実世界実験では動的環境におけるロバストな長期的計画とリアルタイム適応性を実証した。
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.