ChatPaper.aiChatPaper

StreamVLN: Streaming Vision-and-Language Navigation durch SlowFast-Kontextmodellierung

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

July 7, 2025
papers.authors: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI

papers.abstract

Vision-and-Language Navigation (VLN) in real-world settings erfordert, dass Agenten kontinuierliche visuelle Datenströme verarbeiten und Aktionen mit geringer Latenz auf der Grundlage von Sprachanweisungen generieren. Während Video-basierte Large Language Models (Video-LLMs) in jüngster Zeit Fortschritte vorangetrieben haben, stehen aktuelle VLN-Methoden, die auf Video-LLM basieren, oft vor dem Dilemma, zwischen fein abgestufter visueller Wahrnehmung, langfristiger Kontextmodellierung und Recheneffizienz abzuwägen. Wir stellen StreamVLN vor, ein Streaming-VLN-Framework, das eine hybride Slow-Fast-Kontextmodellierungsstrategie einsetzt, um multimodales Schließen über verschränkte visuelle, sprachliche und aktionsbezogene Eingaben zu unterstützen. Der schnell fließende Dialogkontext ermöglicht eine reaktionsschnelle Aktionsgenerierung durch ein Schiebefenster aktiver Dialoge, während der langsam aktualisierte Speicherkontext historische visuelle Zustände mithilfe einer 3D-bewussten Token-Ausdünnungsstrategie komprimiert. Mit diesem Slow-Fast-Design erreicht StreamVLN kohärente Mehrfachdialoge durch effiziente Wiederverwendung des KV-Caches und unterstützt lange Videoströme mit begrenzter Kontextgröße und Inferenzkosten. Experimente auf VLN-CE-Benchmarks demonstrieren state-of-the-art Leistung mit stabiler niedriger Latenz, was Robustheit und Effizienz im realen Einsatz gewährleistet. Die Projektseite ist: https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: https://streamvln.github.io/{https://streamvln.github.io/}.
PDF402July 9, 2025