StreamVLN: Navigazione Visiva e Linguistica in Streaming tramite Modellazione del Contesto SlowFast
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
July 7, 2025
Autori: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI
Abstract
La navigazione visiva e linguistica (VLN) in contesti reali richiede che gli agenti elaborino flussi visivi continui e generino azioni con bassa latenza basandosi su istruzioni linguistiche. Sebbene i modelli linguistici di grandi dimensioni basati su video (Video-LLM) abbiano guidato i recenti progressi, i metodi VLN attuali basati su Video-LLM spesso devono affrontare compromessi tra la comprensione visiva dettagliata, la modellazione del contesto a lungo termine e l'efficienza computazionale. Introduciamo StreamVLN, un framework VLN in streaming che impiega una strategia ibrida di modellazione del contesto lento-veloce per supportare il ragionamento multimodale su input intervallati di visione, linguaggio e azione. Il contesto di dialogo a flusso veloce facilita la generazione reattiva di azioni attraverso una finestra scorrevole di dialoghi attivi, mentre il contesto di memoria a aggiornamento lento comprime gli stati visivi storici utilizzando una strategia di potatura di token 3D-aware. Con questo design lento-veloce, StreamVLN raggiunge un dialogo coerente a più turni attraverso il riutilizzo efficiente della cache KV, supportando flussi video lunghi con dimensioni del contesto e costi di inferenza limitati. Gli esperimenti sui benchmark VLN-CE dimostrano prestazioni all'avanguardia con una bassa latenza stabile, garantendo robustezza ed efficienza in contesti di implementazione reali. La pagina del progetto è: https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents
to process continuous visual streams and generate actions with low latency
grounded in language instructions. While Video-based Large Language Models
(Video-LLMs) have driven recent progress, current VLN methods based on
Video-LLM often face trade-offs among fine-grained visual understanding,
long-term context modeling and computational efficiency. We introduce
StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context
modeling strategy to support multi-modal reasoning over interleaved vision,
language and action inputs. The fast-streaming dialogue context facilitates
responsive action generation through a sliding-window of active dialogues,
while the slow-updating memory context compresses historical visual states
using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN
achieves coherent multi-turn dialogue through efficient KV cache reuse,
supporting long video streams with bounded context size and inference cost.
Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with
stable low latency, ensuring robustness and efficiency in real-world
deployment. The project page is:
https://streamvln.github.io/{https://streamvln.github.io/}.