FantasyVLN: Ragionamento a Catena di Pensiero Multimodale Unificato per la Navigazione Visione-Linguaggio

Abstract

Il raggiungimento di prestazioni di livello umano nella Navigazione Visione-e-Linguaggio (VLN) richiede che un agente incarnato comprenda congiuntamente istruzioni multimodali e contesto visivo-spaziale, ragionando su lunghe sequenze di azioni. Lavori recenti, come NavCoT e NavGPT-2, dimostrano il potenziale del ragionamento a Catena del Pensiero (CoT) per migliorare l'interpretabilità e la pianificazione a lungo termine. Inoltre, estensioni multimodali come OctoNav-R1 e CoT-VLA convalidano ulteriormente il CoT come una via promettente verso un ragionamento navigazionale simile a quello umano. Tuttavia, gli approcci esistenti presentano limiti critici: i CoT puramente testuali mancano di ancoraggio spaziale e si adattano eccessivamente a step di ragionamento annotati e sparsi, mentre i CoT multimodali causano una severa inflazione di token generando osservazioni visive immaginate, rendendo la navigazione in tempo reale impraticabile. In questo lavoro, proponiamo FantasyVLN, un framework di ragionamento implicito unificato che preserva i vantaggi del ragionamento CoT senza il sovraccarico esplicito di token. Nello specifico, i token visivi immaginati vengono codificati in uno spazio latente compatto utilizzando un AutoRegressore Visivo (VAR) preaddestrato durante l'allenamento del ragionamento CoT, e il modello impara congiuntamente da modalità CoT testuali, visive e multimodali sotto una strategia unificata multi-CoT. In fase di inferenza, il nostro modello esegue un mapping diretto da istruzione ad azione, pur beneficiando di rappresentazioni consapevoli del ragionamento. Esperimenti estensivi su LH-VLN mostrano che il nostro approccio raggiunge una navigazione consapevole del ragionamento ma in tempo reale, migliorando i tassi di successo e l'efficienza mentre riduce la latenza di inferenza di un ordine di grandezza rispetto ai metodi CoT espliciti.

English

Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.

FantasyVLN: Ragionamento a Catena di Pensiero Multimodale Unificato per la Navigazione Visione-Linguaggio

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Abstract

Support