InfiniPot-V: Сжатие кэша ключ-значение с ограничением памяти для потокового видео Понимание
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
June 18, 2025
Авторы: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI
Аннотация
Современные мультимодальные большие языковые модели (MLLM) способны анализировать видео продолжительностью в час, однако их кэш ключей и значений (KV) растет линейно со временем, быстро превышая фиксированную память телефонов, AR-очков и роботов на периферии. Предыдущие схемы сжатия либо предполагают, что все видео и запрос пользователя доступны оффлайн, либо сначала требуют построения полного кэша, поэтому память все равно масштабируется с длиной потока. InfiniPot-V — это первый не требующий обучения, независимый от запросов фреймворк, который обеспечивает жесткое ограничение памяти, не зависящее от длины потока, для понимания потокового видео. Во время кодирования видео он отслеживает кэш и, как только достигается заданный пользователем порог, запускает легковесное сжатие, которое (i) удаляет временно избыточные токены с помощью метрики Temporal-axis Redundancy (TaR) и (ii) сохраняет семантически значимые токены с помощью ранжирования Value-Norm (VaN). На четырех открытых MLLM и четырех бенчмарках для длинных видео и двух для потокового видео InfiniPot-V сокращает пиковую память GPU до 94%, поддерживает генерацию в реальном времени и соответствует или превосходит точность полного кэша — даже в многоходовых диалогах. Устраняя узкое место KV-кэша без переобучения или знания запросов, InfiniPot-V закрывает пробел для потоковых видеоассистентов на устройствах.
English
Modern multimodal large language models (MLLMs) can reason over hour-long
video, yet their key-value (KV) cache grows linearly with time--quickly
exceeding the fixed memory of phones, AR glasses, and edge robots. Prior
compression schemes either assume the whole video and user query are available
offline or must first build the full cache, so memory still scales with stream
length. InfiniPot-V is the first training-free, query-agnostic framework that
enforces a hard, length-independent memory cap for streaming video
understanding. During video encoding it monitors the cache and, once a user-set
threshold is reached, runs a lightweight compression pass that (i) removes
temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii)
keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four
open-source MLLMs and four long-video and two streaming-video benchmarks,
InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation,
and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By
dissolving the KV cache bottleneck without retraining or query knowledge,
InfiniPot-V closes the gap for on-device streaming video assistants.