ChatPaper.aiChatPaper

FantasyVLN : Raisonnement multimodal unifié par enchaînement de pensées pour la navigation vision-langage

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

January 20, 2026
papers.authors: Jing Zuo, Lingzhou Mu, Fan Jiang, Chengcheng Ma, Mu Xu, Yonggang Qi
cs.AI

papers.abstract

Atteindre des performances équivalentes à l'humain en Navigation Vision-Langage (VLN) nécessite qu'un agent incarné comprenne conjointement des instructions multimodales et un contexte visuo-spatial tout en raisonnant sur de longues séquences d'actions. Des travaux récents, tels que NavCoT et NavGPT-2, démontrent le potentiel du raisonnement en Chaîne de Pensée (CoT) pour améliorer l'interprétabilité et la planification à long terme. De plus, des extensions multimodales comme OctoNav-R1 et CoT-VLA valident en outre le CoT comme une voie prometteuse vers un raisonnement de navigation semblable à celui de l'homme. Cependant, les approches existantes présentent des inconvénients critiques : les CoT purement textuels manquent d'ancrage spatial et surajustent facilement aux étapes de raisonnement annotées éparses, tandis que les CoT multimodaux entraînent une inflation sévère de tokens en générant des observations visuelles imaginées, rendant la navigation en temps réel impraticable. Dans ce travail, nous proposons FantasyVLN, un cadre de raisonnement implicite unifié qui préserve les avantages du raisonnement CoT sans surcharge explicite de tokens. Plus précisément, les tokens visuels imaginés sont encodés dans un espace latent compact à l'aide d'un AutoRégresseur Visuel (VAR) préentraîné durant l'entraînement au raisonnement CoT, et le modèle apprend conjointement à partir de modes CoT textuels, visuels et multimodaux selon une stratégie multi-CoT unifiée. Lors de l'inférence, notre modèle effectue un mapping direct instruction-action tout en bénéficiant de représentations sensibles au raisonnement. Des expériences approfondies sur LH-VLN montrent que notre approche réalise une navigation à la fois sensible au raisonnement et en temps réel, améliorant les taux de succès et l'efficacité tout en réduisant la latence d'inférence d'un ordre de grandeur par rapport aux méthodes CoT explicites.
English
Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.
PDF41January 22, 2026