ChatPaper.aiChatPaper

FantasyVLN:視覚言語ナビゲーションのための統合マルチモーダル連鎖思考推論

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

January 20, 2026
著者: Jing Zuo, Lingzhou Mu, Fan Jiang, Chengcheng Ma, Mu Xu, Yonggang Qi
cs.AI

要旨

視覚言語ナビゲーション(VLN)において人間レベルの性能を達成するには、具現化エージェントがマルチモーダルな指示と視覚空間的文脈を統合的に理解し、長い行動系列にわたる推論を行う必要がある。NavCoTやNavGPT-2などの最近の研究は、Chain-of-Thought(CoT)推論が解釈性と長期計画の改善に有効である可能性を示している。さらに、OctoNav-R1やCoT-VLAといったマルチモーダル拡張は、人間に近いナビゲーション推論に向けたCoTの有望な道筋を裏付けている。しかし、既存手法には重大な欠点がある:テキストのみのCoTは空間的接地が不足し、疎な注釈付き推論ステップに過適合しやすく、マルチモーダルCoTは想像された視覚観測を生成するためトークン数が急増し、実時間ナビゲーションを非現実的なものにする。本研究では、明示的なトークンオーバーヘッドなしにCoT推論の利点を保持する統合的暗黙推論フレームワーク「FantasyVLN」を提案する。具体的には、CoT推論学習時に事前学習済み視覚自己回帰モデル(VAR)を用いて想像された視覚トークンをコンパクトな潜在空間に符号化し、統一マルチCoT戦略の下でテキスト、視覚、マルチモーダルCoTモードから統合的に学習する。推論時、本モデルは指示から行動への直接マッピングを実行しつつ、推論を意識した表現を維持する。LH-VLNにおける大規模実験により、本手法が推論を意識しつつ実時間でのナビゲーションを実現し、成功率と効率を向上させるとともに、推論遅延を明示的CoT手法と比較して一桁削減することを実証した。
English
Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.
PDF41January 22, 2026