StreamVLN: Streaming Visie-en-Taalnavigatie via SlowFast Contextmodellering
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
July 7, 2025
Auteurs: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI
Samenvatting
Vision-and-Language Navigation (VLN) in real-world settings vereist dat agents continue visuele stromen verwerken en acties met lage latentie genereren die zijn verankerd in taal instructies. Hoewel Video-based Large Language Models (Video-LLMs) recente vooruitgang hebben gestimuleerd, worden huidige VLN-methoden gebaseerd op Video-LLM vaak geconfronteerd met afwegingen tussen gedetailleerd visueel begrip, langetermijncontextmodellering en computationele efficiëntie. Wij introduceren StreamVLN, een streaming VLN-framework dat een hybride langzaam-snel contextmodelleringsstrategie gebruikt om multimodale redenering over verweven visuele, taal- en actie-invoer te ondersteunen. De snel-streamende dialoogcontext vergemakkelijkt responsieve actiegeneratie via een schuifvenster van actieve dialogen, terwijl de langzaam bijgewerkte geheugencontext historische visuele toestanden comprimeert met behulp van een 3D-aware token pruning-strategie. Met dit langzaam-snel ontwerp bereikt StreamVLN coherente meerzijdige dialogen door efficiënt hergebruik van KV-cache, waardoor lange videostreams worden ondersteund met een begrensde contextgrootte en inferentiekosten. Experimenten op VLN-CE benchmarks tonen state-of-the-art prestaties met stabiele lage latentie, wat robuustheid en efficiëntie in real-world implementatie waarborgt. De projectpagina is: https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents
to process continuous visual streams and generate actions with low latency
grounded in language instructions. While Video-based Large Language Models
(Video-LLMs) have driven recent progress, current VLN methods based on
Video-LLM often face trade-offs among fine-grained visual understanding,
long-term context modeling and computational efficiency. We introduce
StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context
modeling strategy to support multi-modal reasoning over interleaved vision,
language and action inputs. The fast-streaming dialogue context facilitates
responsive action generation through a sliding-window of active dialogues,
while the slow-updating memory context compresses historical visual states
using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN
achieves coherent multi-turn dialogue through efficient KV cache reuse,
supporting long video streams with bounded context size and inference cost.
Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with
stable low latency, ensuring robustness and efficiency in real-world
deployment. The project page is:
https://streamvln.github.io/{https://streamvln.github.io/}.