StreamVLN: Навигация на основе потокового анализа зрения и языка с использованием моделирования контекста SlowFast
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
July 7, 2025
Авторы: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI
Аннотация
Навигация на основе зрения и языка (Vision-and-Language Navigation, VLN) в реальных условиях требует от агентов обработки непрерывных визуальных потоков и генерации действий с низкой задержкой, основанных на языковых инструкциях. Хотя видеомодели на основе больших языковых моделей (Video-LLMs) способствовали недавнему прогрессу, современные методы VLN, основанные на Video-LLM, часто сталкиваются с компромиссами между детальным визуальным пониманием, моделированием долгосрочного контекста и вычислительной эффективностью. Мы представляем StreamVLN — потоковую VLN-структуру, которая использует гибридную стратегию моделирования контекста с медленным и быстрым обновлением для поддержки мультимодального рассуждения над чередующимися визуальными, языковыми и действительными входами. Быстрый потоковый контекст диалога обеспечивает оперативную генерацию действий через скользящее окно активных диалогов, в то время как медленно обновляемый контекст памяти сжимает исторические визуальные состояния с использованием стратегии обрезки токенов с учетом 3D-аспектов. Благодаря этой медленно-быстрой конструкции StreamVLN достигает согласованного многократного диалога за счет эффективного повторного использования кэша ключей и значений (KV), поддерживая длинные видеопотоки с ограниченным размером контекста и затратами на вывод. Эксперименты на бенчмарках VLN-CE демонстрируют передовую производительность с стабильно низкой задержкой, обеспечивая надежность и эффективность при развертывании в реальных условиях. Страница проекта доступна по адресу: https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents
to process continuous visual streams and generate actions with low latency
grounded in language instructions. While Video-based Large Language Models
(Video-LLMs) have driven recent progress, current VLN methods based on
Video-LLM often face trade-offs among fine-grained visual understanding,
long-term context modeling and computational efficiency. We introduce
StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context
modeling strategy to support multi-modal reasoning over interleaved vision,
language and action inputs. The fast-streaming dialogue context facilitates
responsive action generation through a sliding-window of active dialogues,
while the slow-updating memory context compresses historical visual states
using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN
achieves coherent multi-turn dialogue through efficient KV cache reuse,
supporting long video streams with bounded context size and inference cost.
Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with
stable low latency, ensuring robustness and efficiency in real-world
deployment. The project page is:
https://streamvln.github.io/{https://streamvln.github.io/}.