FantasyVLN: Raciocínio Unificado em Cadeia de Pensamento Multimodal para Navegação Visão-Linguagem

Resumo

A obtenção de um desempenho ao nível humano na Navegação por Visão e Linguagem (VLN) requer que um agente corporizado compreenda conjuntamente instruções multimodais e contexto visual-espacial, enquanto raciocina sobre longas sequências de ações. Trabalhos recentes, como NavCoT e NavGPT-2, demonstram o potencial do raciocínio em Cadeia de Pensamento (CoT) para melhorar a interpretabilidade e o planeamento de longo prazo. Além disso, extensões multimodais como OctoNav-R1 e CoT-VLA validam ainda mais o CoT como um caminho promissor para um raciocínio de navegação semelhante ao humano. No entanto, as abordagens existentes enfrentam desvantagens críticas: os CoTs puramente textuais carecem de fundamentação espacial e sobreajustam-se facilmente a passos de raciocínio anotados de forma esparsa, enquanto os CoTs multimodais incorrem numa severa inflação de *tokens* ao gerarem observações visuais imaginadas, tornando a navegação em tempo real impraticável. Neste trabalho, propomos o FantasyVLN, uma estrutura de raciocínio implícito unificada que preserva os benefícios do raciocínio CoT sem a sobrecarga explícita de *tokens*. Especificamente, os *tokens* visuais imaginados são codificados num espaço latente compacto usando um AutoRegressor Visual (VAR) pré-treinado durante o treino de raciocínio CoT, e o modelo aprende conjuntamente a partir de modos CoT textuais, visuais e multimodais sob uma estratégia unificada de multi-CoT. Na inferência, o nosso modelo realiza um mapeamento direto de instrução para ação, enquanto ainda beneficia de representações conscientes do raciocínio. Experiências extensivas no LH-VLN mostram que a nossa abordagem alcança uma navegação consciente do raciocínio, mas em tempo real, melhorando as taxas de sucesso e a eficiência, enquanto reduz a latência de inferência por uma ordem de magnitude em comparação com os métodos CoT explícitos.

English

Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.

FantasyVLN: Raciocínio Unificado em Cadeia de Pensamento Multimodal para Navegação Visão-Linguagem

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Resumo

Support