ChatPaper.aiChatPaper

FantasyVLN: Vereinheitlichte multimodale Ketten-Denkansätze für die Navigation mit Sprache und Bildern

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

January 20, 2026
papers.authors: Jing Zuo, Lingzhou Mu, Fan Jiang, Chengcheng Ma, Mu Xu, Yonggang Qi
cs.AI

papers.abstract

Die Erreichung menschlicher Leistungsfähigkeit in der visuell-sprachlichen Navigation (VLN) erfordert, dass ein verkörperter Agent multimodale Anweisungen und visuell-räumliche Kontexte gemeinsam versteht und gleichzeitig über lange Aktionssequenzen hinweg schlussfolgert. Neuere Arbeiten wie NavCoT und NavGPT-2 demonstrieren das Potenzial von Chain-of-Thought (CoT)-Reasoning zur Verbesserung der Interpretierbarkeit und langfristigen Planung. Darüber hinaus validieren multimodale Erweiterungen wie OctoNav-R1 und CoT-VLA CoT weiterhin als vielversprechenden Weg hinzu menschlichem Navigationsverhalten. Allerdings weisen bestehende Ansätze kritische Schwächen auf: rein textbasierte CoTs fehlt die räumliche Verankerung und sie neigen zur Überanpassung an spärlich annotierte Reasoning-Schritte, während multimodale CoTs durch die Generierung imaginierter visueller Beobachtungen zu erheblichem Token-Overhead führen, was Echtzeit-Navigation unpraktikabel macht. In dieser Arbeit stellen wir FantasyVLN vor, einen vereinheitlichten impliziten Reasoning-Rahmen, der die Vorteile von CoT-Reasoning ohne expliziten Token-Mehraufwand bewahrt. Konkret werden während des CoT-Reasoning-Trainings imaginierte visuelle Tokens mittels eines vortrainierten visuellen autoregressiven Modells (VAR) in einen kompakten latenten Raum kodiert, und das Modell lernt gemeinsam aus textuellen, visuellen und multimodalen CoT-Modi unter einer vereinheitlichten Multi-CoT-Strategie. Zur Inferenzzeit führt unser Modell eine direkte Anweisungs-Aktions-Abbildung durch, profitiert jedoch weiterhin von reasoning-bewussten Repräsentationen. Umfangreiche Experimente auf LH-VLN zeigen, dass unser Ansatz reasoning-bewusste und dennoch echtzeitfähige Navigation erreicht, die Erfolgsraten und Effizienz steigert und die Inferenzlatenz im Vergleich zu expliziten CoT-Methoden um eine Größenordnung reduziert.
English
Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.
PDF41January 22, 2026