FantasyVLN: Verenigde Multimodale Redeneerketen voor Visie-Taalnavigatie

Samenvatting

Het bereiken van menselijk prestatieniveau in Vision-and-Language Navigation (VLN) vereist dat een belichaamde agent multimodale instructies en visueel-ruimtelijke context gezamenlijk begrijpt, terwijl hij redeneert over lange actiesequenties. Recente werken, zoals NavCoT en NavGPT-2, tonen de potentie van Chain-of-Thought (CoT)-redeneren aan voor het verbeteren van interpreteerbaarheid en planning over lange tijdshorizonnen. Bovendien valideren multimodale extensies zoals OctoNav-R1 en CoT-VLA CoT verder als een veelbelovende weg naar mensachtige navigatieredenering. Echter, bestaande benaderingen kampen met kritieke tekortkomingen: puur tekstuele CoT's missen ruimtelijke verankering en overfitten snel aan schaars geannoteerde redeneerstappen, terwijl multimodale CoT's ernstige tokeninflatie veroorzaken door het genereren van verbeeldde visuele observaties, wat real-time navigatie onpraktisch maakt. In dit werk stellen we FantasyVLN voor, een uniform impliciet redeneerkader dat de voordelen van CoT-redeneren behoudt zonder expliciete tokenoverhead. Specifiek worden verbeeldde visuele tokens tijdens de CoT-redeneertraining gecodeerd in een compacte latente ruimte met behulp van een vooraf getrainde Visuele AutoRegressor (VAR), en leert het model gezamenlijk van tekstuele, visuele en multimodale CoT-modussen onder een uniforme multi-CoT-strategie. Tijdens inferentie voert ons model directe instructie-naar-actie-mapping uit, terwijl het toch profiteert van redeneringsbewuste representaties. Uitgebreide experimenten op LH-VLN tonen aan dat onze aanpak redeneringsbewuste doch real-time navigatie bereikt, waarmee succespercentages en efficiëntie worden verbeterd en de inferentielatentie met een orde van grootte wordt verminderd vergeleken met expliciete CoT-methoden.

English

Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.

FantasyVLN: Verenigde Multimodale Redeneerketen voor Visie-Taalnavigatie

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Samenvatting

Support