StreamVLN: Navegação em Visão e Linguagem em Fluxo Contínuo via Modelagem de Contexto SlowFast

Resumo

A Navegação Baseada em Visão e Linguagem (VLN) em ambientes do mundo real exige que os agentes processem fluxos visuais contínuos e gerem ações com baixa latência, fundamentadas em instruções de linguagem. Embora os Modelos de Linguagem de Grande Escala Baseados em Vídeo (Video-LLMs) tenham impulsionado avanços recentes, os métodos atuais de VLN baseados em Video-LLM frequentemente enfrentam trade-offs entre compreensão visual detalhada, modelagem de contexto de longo prazo e eficiência computacional. Apresentamos o StreamVLN, um framework de VLN em streaming que emprega uma estratégia híbrida de modelagem de contexto lento-rápido para suportar raciocínio multimodal sobre entradas intercaladas de visão, linguagem e ação. O contexto de diálogo de streaming rápido facilita a geração responsiva de ações por meio de uma janela deslizante de diálogos ativos, enquanto o contexto de memória de atualização lenta comprime estados visuais históricos usando uma estratégia de poda de tokens 3D-aware. Com esse design lento-rápido, o StreamVLN alcança diálogos coerentes de múltiplos turnos por meio da reutilização eficiente do cache KV, suportando longos fluxos de vídeo com tamanho de contexto e custo de inferência limitados. Experimentos em benchmarks VLN-CE demonstram desempenho de ponta com latência baixa e estável, garantindo robustez e eficiência em implantações do mundo real. A página do projeto é: https://streamvln.github.io/{https://streamvln.github.io/}.

English

Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: https://streamvln.github.io/{https://streamvln.github.io/}.

StreamVLN: Navegação em Visão e Linguagem em Fluxo Contínuo via Modelagem de Contexto SlowFast

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

Resumo

Support