FantasyVLN: Razonamiento Unificado de Cadena de Pensamiento Multimodal para Navegación Visión-Lenguaje
FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
January 20, 2026
Autores: Jing Zuo, Lingzhou Mu, Fan Jiang, Chengcheng Ma, Mu Xu, Yonggang Qi
cs.AI
Resumen
Lograr un rendimiento a nivel humano en Navegación con Visión y Lenguaje (VLN) requiere que un agente embodado comprenda conjuntamente instrucciones multimodales y contexto visual-espacial, mientras razona sobre largas secuencias de acciones. Trabajos recientes, como NavCoT y NavGPT-2, demuestran el potencial del razonamiento en Cadena de Pensamiento (CoT) para mejorar la interpretabilidad y la planificación a largo plazo. Además, extensiones multimodales como OctoNav-R1 y CoT-VLA validan aún más al CoT como una vía prometedora hacia un razonamiento de navegación similar al humano. Sin embargo, los enfoques existentes presentan desventajas críticas: los CoT puramente textuales carecen de fundamentación espacial y se sobreajustan fácilmente a las anotaciones escasas de los pasos de razonamiento, mientras que los CoT multimodales incurren en una severa inflación de *tokens* al generar observaciones visuales imaginadas, haciendo impracticable la navegación en tiempo real. En este trabajo, proponemos FantasyVLN, un marco de razonamiento implícito unificado que preserva los beneficios del razonamiento CoT sin la sobrecarga explícita de *tokens*. Específicamente, los *tokens* visuales imaginados se codifican en un espacio latente compacto utilizando un AutoRegresor Visual (VAR) preentrenado durante el entrenamiento del razonamiento CoT, y el modelo aprende conjuntamente a partir de modos CoT textuales, visuales y multimodales bajo una estrategia unificada de multi-CoT. En la inferencia, nuestro modelo realiza un mapeo directo de instrucción a acción mientras sigue beneficiándose de representaciones conscientes del razonamiento. Experimentos exhaustivos en LH-VLN muestran que nuestro enfoque logra una navegación consciente del razonamiento y en tiempo real, mejorando las tasas de éxito y la eficiencia mientras reduce la latencia de inferencia en un orden de magnitud en comparación con los métodos CoT explícitos.
English
Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.