FantasyVLN: 비전-언어 내비게이션을 위한 통합 멀티모달 사고 연쇄 추론
FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
January 20, 2026
저자: Jing Zuo, Lingzhou Mu, Fan Jiang, Chengcheng Ma, Mu Xu, Yonggang Qi
cs.AI
초록
시각-언어 항법(VLN)에서 인간 수준의 성능을 달성하기 위해서는 구현된 에이전트가 긴 행동 시퀀스에 대해 추론하면서 다중 모드 지침과 시각-공간적 맥락을 동시에 이해해야 합니다. NavCoT나 NavGPT-2와 같은 최근 연구들은 사고 연쇄(CoT) 추론이 해석 가능성과 장기 계획 수립 능력을 향상시킬 수 있는 잠재력을 보여주었습니다. 더 나아가 OctoNav-R1과 CoT-VLA 같은 다중 모드 확장은 CoT가 인간과 유사한 항법 추론을 위한 유망한 경로임을 추가로 입증합니다. 그러나 기존 접근법은 중요한 한계에 직면해 있습니다: 순수 텍스트 기반 CoT는 공간적 기반이 부족하며 희소하게 주석이 달린 추론 단계에 쉽게 과적합되는 반면, 다중 모드 CoT는 상상된 시각 관측치를 생성하여严重的한 토큰 비대화를 초래해 실시간 항법을 비현실적으로 만듭니다. 본 연구에서는 명시적인 토큰 오버헤드 없이 CoT 추론의 이점을 유지하는 통합 암묵적 추론 프레임워크인 FantasyVLN을 제안합니다. 구체적으로, CoT 추론 훈련 중 사전 훈련된 시각 자동회귀 인코더(VAR)를 사용하여 상상된 시각 토큰을 압축된 잠재 공간으로 인코딩하며, 모델은 통합 다중 CoT 전략 하에서 텍스트, 시각 및 다중 모드 CoT 모드로부터 공동 학습을 수행합니다. 추론 시에는 우리 모델이 직접적인 지침-행동 매핑을 수행하면서도 추론 인식 표현의 이점을 여전히 누릅니다. LH-VLN에 대한 광범위한 실험 결과, 우리의 접근 방식이 추론 인식적이면서도 실시간 항법을 달성하여 명시적 CoT 방법 대비 추론 지연 시간을 크게 줄이는 동시에 성공률과 효율성을 향상시킴을 확인했습니다.
English
Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.