StreamVLN: Streaming Visie-en-Taalnavigatie via SlowFast Contextmodellering

Samenvatting

Vision-and-Language Navigation (VLN) in real-world settings vereist dat agents continue visuele stromen verwerken en acties met lage latentie genereren die zijn verankerd in taal instructies. Hoewel Video-based Large Language Models (Video-LLMs) recente vooruitgang hebben gestimuleerd, worden huidige VLN-methoden gebaseerd op Video-LLM vaak geconfronteerd met afwegingen tussen gedetailleerd visueel begrip, langetermijncontextmodellering en computationele efficiëntie. Wij introduceren StreamVLN, een streaming VLN-framework dat een hybride langzaam-snel contextmodelleringsstrategie gebruikt om multimodale redenering over verweven visuele, taal- en actie-invoer te ondersteunen. De snel-streamende dialoogcontext vergemakkelijkt responsieve actiegeneratie via een schuifvenster van actieve dialogen, terwijl de langzaam bijgewerkte geheugencontext historische visuele toestanden comprimeert met behulp van een 3D-aware token pruning-strategie. Met dit langzaam-snel ontwerp bereikt StreamVLN coherente meerzijdige dialogen door efficiënt hergebruik van KV-cache, waardoor lange videostreams worden ondersteund met een begrensde contextgrootte en inferentiekosten. Experimenten op VLN-CE benchmarks tonen state-of-the-art prestaties met stabiele lage latentie, wat robuustheid en efficiëntie in real-world implementatie waarborgt. De projectpagina is: https://streamvln.github.io/{https://streamvln.github.io/}.

English

Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: https://streamvln.github.io/{https://streamvln.github.io/}.

StreamVLN: Streaming Visie-en-Taalnavigatie via SlowFast Contextmodellering

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

Samenvatting

Support