ChatPaper.aiChatPaper

StreamVLN : Navigation Vision-et-Langage en Flux via Modélisation Contextuelle SlowFast

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

July 7, 2025
papers.authors: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI

papers.abstract

La navigation vision-langage (VLN) dans des environnements réels nécessite que les agents traitent des flux visuels continus et génèrent des actions avec une faible latence, en se basant sur des instructions linguistiques. Bien que les modèles de langage de grande taille basés sur la vidéo (Video-LLMs) aient récemment permis des avancées, les méthodes actuelles de VLN basées sur Video-LLM sont souvent confrontées à des compromis entre la compréhension visuelle fine, la modélisation de contexte à long terme et l'efficacité computationnelle. Nous présentons StreamVLN, un cadre de VLN en flux continu qui utilise une stratégie hybride de modélisation de contexte lent-rapide pour soutenir le raisonnement multimodal sur des entrées entrelacées de vision, de langage et d'actions. Le contexte de dialogue en flux rapide facilite la génération réactive d'actions grâce à une fenêtre glissante de dialogues actifs, tandis que le contexte de mémoire à mise à jour lente compresse les états visuels historiques en utilisant une stratégie d'élagage de tokens 3D. Grâce à cette conception lent-rapide, StreamVLN réalise un dialogue cohérent sur plusieurs tours grâce à une réutilisation efficace du cache KV, supportant de longs flux vidéo avec une taille de contexte et un coût d'inférence limités. Les expériences sur les benchmarks VLN-CE démontrent des performances de pointe avec une latence faible et stable, garantissant robustesse et efficacité dans un déploiement réel. La page du projet est : https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: https://streamvln.github.io/{https://streamvln.github.io/}.
PDF402July 9, 2025