FantasyVLN: Унифицированное мультимодальное рассуждение по цепочке мыслей для навигации на основе зрения и языка
FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
January 20, 2026
Авторы: Jing Zuo, Lingzhou Mu, Fan Jiang, Chengcheng Ma, Mu Xu, Yonggang Qi
cs.AI
Аннотация
Достижение человеческого уровня в навигации на основе зрения и языка (VLN) требует от воплощенного агента способности совместно понимать мультимодальные инструкции и визуально-пространственный контекст, одновременно рассуждая над длинными последовательностями действий. Недавние работы, такие как NavCoT и NavGPT-2, демонстрируют потенциал рассуждений по цепочке мыслей (CoT) для повышения интерпретируемости и планирования на длительных горизонтах. Более того, мультимодальные расширения, подобные OctoNav-R1 и CoT-VLA, дополнительно подтверждают, что CoT является перспективным путем к достижению человеко-подобного навигационного мышления. Однако существующие подходы имеют серьезные недостатки: чисто текстовые CoT лишены пространственной привязки и легко переобучаются на разреженные аннотированные шаги рассуждений, в то время как мультимодальные CoT приводят к значительной инфляции токенов из-за генерации воображаемых визуальных наблюдений, что делает навигацию в реальном времени непрактичной. В данной работе мы предлагаем FantasyVLN — унифицированную систему неявных рассуждений, которая сохраняет преимущества CoT без явных затрат на токены. В частности, воображаемые визуальные токены кодируются в компактное латентное пространство с помощью предварительно обученного визуального авторегрессора (VAR) в процессе обучения CoT-рассуждениям, а модель обучается совместно на текстовых, визуальных и мультимодальных режимах CoT в рамках единой стратегии multi-CoT. На этапе вывода наша модель выполняет прямое отображение "инструкция-действие", сохраняя при этом репрезентации, обогащенные рассуждениями. Экстенсивные эксперименты на LH-VLN показывают, что наш подход обеспечивает осознанную рассуждениями, но при этом работающую в реальном времени навигацию, повышая процент успеха и эффективность, одновременно сокращая задержку вывода на порядок по сравнению с методами, использующими явные CoT.
English
Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.