ChatPaper.aiChatPaper

StreamVLN: Навигация на основе потокового анализа зрения и языка с использованием моделирования контекста SlowFast

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

July 7, 2025
Авторы: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
cs.AI

Аннотация

Навигация на основе зрения и языка (Vision-and-Language Navigation, VLN) в реальных условиях требует от агентов обработки непрерывных визуальных потоков и генерации действий с низкой задержкой, основанных на языковых инструкциях. Хотя видеомодели на основе больших языковых моделей (Video-LLMs) способствовали недавнему прогрессу, современные методы VLN, основанные на Video-LLM, часто сталкиваются с компромиссами между детальным визуальным пониманием, моделированием долгосрочного контекста и вычислительной эффективностью. Мы представляем StreamVLN — потоковую VLN-структуру, которая использует гибридную стратегию моделирования контекста с медленным и быстрым обновлением для поддержки мультимодального рассуждения над чередующимися визуальными, языковыми и действительными входами. Быстрый потоковый контекст диалога обеспечивает оперативную генерацию действий через скользящее окно активных диалогов, в то время как медленно обновляемый контекст памяти сжимает исторические визуальные состояния с использованием стратегии обрезки токенов с учетом 3D-аспектов. Благодаря этой медленно-быстрой конструкции StreamVLN достигает согласованного многократного диалога за счет эффективного повторного использования кэша ключей и значений (KV), поддерживая длинные видеопотоки с ограниченным размером контекста и затратами на вывод. Эксперименты на бенчмарках VLN-CE демонстрируют передовую производительность с стабильно низкой задержкой, обеспечивая надежность и эффективность при развертывании в реальных условиях. Страница проекта доступна по адресу: https://streamvln.github.io/{https://streamvln.github.io/}.
English
Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: https://streamvln.github.io/{https://streamvln.github.io/}.
PDF402July 9, 2025