ChatPaper.aiChatPaper

StreamVLN: Navegación de Visión y Lenguaje en Tiempo Real mediante Modelado de Contexto SlowFast

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

July 7, 2025
Autores: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI

Resumen

La Navegación Visión-Lenguaje (VLN, por sus siglas en inglés) en entornos del mundo real requiere que los agentes procesen flujos visuales continuos y generen acciones con baja latencia basadas en instrucciones lingüísticas. Aunque los Modelos de Lenguaje de Gran Escala basados en Video (Video-LLMs) han impulsado avances recientes, los métodos actuales de VLN basados en Video-LLM a menudo enfrentan compromisos entre la comprensión visual detallada, el modelado de contexto a largo plazo y la eficiencia computacional. Presentamos StreamVLN, un marco de VLN en flujo continuo que emplea una estrategia híbrida de modelado de contexto lento-rápido para apoyar el razonamiento multimodal sobre entradas intercaladas de visión, lenguaje y acción. El contexto de diálogo de flujo rápido facilita la generación de acciones receptivas mediante una ventana deslizante de diálogos activos, mientras que el contexto de memoria de actualización lenta comprime estados visuales históricos utilizando una estrategia de poda de tokens consciente de 3D. Con este diseño lento-rápido, StreamVLN logra un diálogo coherente de múltiples turnos mediante la reutilización eficiente de la caché KV, soportando flujos de video largos con un tamaño de contexto y un costo de inferencia acotados. Los experimentos en los puntos de referencia VLN-CE demuestran un rendimiento de vanguardia con una latencia baja y estable, asegurando robustez y eficiencia en la implementación en el mundo real. La página del proyecto es: https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: https://streamvln.github.io/{https://streamvln.github.io/}.
PDF402July 9, 2025