StreamVLN: Navegação em Visão e Linguagem em Fluxo Contínuo via Modelagem de Contexto SlowFast
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
July 7, 2025
Autores: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI
Resumo
A Navegação Baseada em Visão e Linguagem (VLN) em ambientes do mundo real exige que os agentes processem fluxos visuais contínuos e gerem ações com baixa latência, fundamentadas em instruções de linguagem. Embora os Modelos de Linguagem de Grande Escala Baseados em Vídeo (Video-LLMs) tenham impulsionado avanços recentes, os métodos atuais de VLN baseados em Video-LLM frequentemente enfrentam trade-offs entre compreensão visual detalhada, modelagem de contexto de longo prazo e eficiência computacional. Apresentamos o StreamVLN, um framework de VLN em streaming que emprega uma estratégia híbrida de modelagem de contexto lento-rápido para suportar raciocínio multimodal sobre entradas intercaladas de visão, linguagem e ação. O contexto de diálogo de streaming rápido facilita a geração responsiva de ações por meio de uma janela deslizante de diálogos ativos, enquanto o contexto de memória de atualização lenta comprime estados visuais históricos usando uma estratégia de poda de tokens 3D-aware. Com esse design lento-rápido, o StreamVLN alcança diálogos coerentes de múltiplos turnos por meio da reutilização eficiente do cache KV, suportando longos fluxos de vídeo com tamanho de contexto e custo de inferência limitados. Experimentos em benchmarks VLN-CE demonstram desempenho de ponta com latência baixa e estável, garantindo robustez e eficiência em implantações do mundo real. A página do projeto é: https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents
to process continuous visual streams and generate actions with low latency
grounded in language instructions. While Video-based Large Language Models
(Video-LLMs) have driven recent progress, current VLN methods based on
Video-LLM often face trade-offs among fine-grained visual understanding,
long-term context modeling and computational efficiency. We introduce
StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context
modeling strategy to support multi-modal reasoning over interleaved vision,
language and action inputs. The fast-streaming dialogue context facilitates
responsive action generation through a sliding-window of active dialogues,
while the slow-updating memory context compresses historical visual states
using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN
achieves coherent multi-turn dialogue through efficient KV cache reuse,
supporting long video streams with bounded context size and inference cost.
Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with
stable low latency, ensuring robustness and efficiency in real-world
deployment. The project page is:
https://streamvln.github.io/{https://streamvln.github.io/}.