기반을 천천히 다지고 빠르게 움직인다: 일반화 가능한 시각-언어 내비게이션을 위한 이중 시스템 기반 모델
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
December 9, 2025
저자: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
cs.AI
초록
최근 대규모 시각-언어 모델(VLM)의 발전으로 시각-언어 항법(VLN)의 일반화 성능이 향상되었지만, 기존 방법론은 대부분 시각-언어 입력을 단기 이산 행동에 직접 매핑하는 종단간 파이프라인에 의존합니다. 이러한 설계 방식은 종종 단편적인 동작을 생성하고, 높은 지연 시간을 초래하며, 동적 장애물 회피와 같은 실제 환경의 과제에 대처하는 데 어려움을 겪습니다. 본 연구에서는 고수준 추론과 저수준 행동 실행을 상호 보완적으로 통합한 최초의 이중 시스템 VLN 기초 모델인 DualVLN을 제안합니다. 시스템 2는 VLM 기반 전역 경로 계획기로, 이미지 기반 추론을 통해 중기 웨이포인트 목표를 예측함으로써 '신중하게 기반을 형성'합니다. 시스템 1은 경량 다중 모드 조건부 디퓨전 트랜스포머 정책으로, 시스템 2로부터의 명시적 픽셀 목표와 잠재 특성을 모두 활용하여 부드럽고 정확한 궤적을 생성함으로써 '신속하게 이동'합니다. 이중 시스템 설계는 복잡하고 동적인 환경에서 강력한 실시간 제어 및 적응형 지역 의사 결정을 가능하게 합니다. 학습을 분리함으로써 VLM은 일반화 성능을 유지하고, 시스템 1은 해석 가능하고 효과적인 지역 항법을 달성합니다. DualVLN은 모든 VLN 벤치마크에서 기존 방법론을 능가하며, 실제 실험을 통해 동적 환경에서의 강건한 장기 경로 계획 및 실시간 적응 능력을 입증했습니다.
English
While recent large vision-language models (VLMs) have improved generalization in vision-language navigation (VLN), existing methods typically rely on end-to-end pipelines that map vision-language inputs directly to short-horizon discrete actions. Such designs often produce fragmented motions, incur high latency, and struggle with real-world challenges like dynamic obstacle avoidance. We propose DualVLN, the first dual-system VLN foundation model that synergistically integrates high-level reasoning with low-level action execution. System 2, a VLM-based global planner, "grounds slowly" by predicting mid-term waypoint goals via image-grounded reasoning. System 1, a lightweight, multi-modal conditioning Diffusion Transformer policy, "moves fast" by leveraging both explicit pixel goals and latent features from System 2 to generate smooth and accurate trajectories. The dual-system design enables robust real-time control and adaptive local decision-making in complex, dynamic environments. By decoupling training, the VLM retains its generalization, while System 1 achieves interpretable and effective local navigation. DualVLN outperforms prior methods across all VLN benchmarks and real-world experiments demonstrate robust long-horizon planning and real-time adaptability in dynamic environments.