ChatPaper.aiChatPaper

InfiniPot-V: Compressione della Cache KV con Vincoli di Memoria per lo Streaming Video Comprensione

InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

June 18, 2025
Autori: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI

Abstract

I moderni modelli linguistici multimodali di grandi dimensioni (MLLM) sono in grado di ragionare su video della durata di un'ora, ma la loro cache chiave-valore (KV) cresce linearmente nel tempo, superando rapidamente la memoria fissa di telefoni, occhiali AR e robot periferici. I precedenti schemi di compressione presuppongono che l'intero video e la query dell'utente siano disponibili offline o debbano prima costruire la cache completa, quindi la memoria scala comunque con la lunghezza dello stream. InfiniPot-V è il primo framework senza addestramento e agnostico rispetto alla query che impone un limite di memoria rigido e indipendente dalla lunghezza per la comprensione di video in streaming. Durante la codifica del video, monitora la cache e, una volta raggiunta una soglia impostata dall'utente, esegue una passata di compressione leggera che (i) rimuove i token temporalmente ridondanti tramite la metrica di ridondanza sull'asse temporale (TaR) e (ii) mantiene i token semanticamente significativi tramite il ranking basato sulla norma dei valori (VaN). Su quattro MLLM open-source e quattro benchmark per video lunghi e due per video in streaming, InfiniPot-V riduce la memoria GPU di picco fino al 94%, mantiene la generazione in tempo reale e corrisponde o supera l'accuratezza della cache completa, anche in dialoghi multi-turno. Eliminando il collo di bottiglia della cache KV senza necessità di riaddestramento o conoscenza della query, InfiniPot-V colma il divario per gli assistenti video in streaming su dispositivo.
English
Modern multimodal large language models (MLLMs) can reason over hour-long video, yet their key-value (KV) cache grows linearly with time--quickly exceeding the fixed memory of phones, AR glasses, and edge robots. Prior compression schemes either assume the whole video and user query are available offline or must first build the full cache, so memory still scales with stream length. InfiniPot-V is the first training-free, query-agnostic framework that enforces a hard, length-independent memory cap for streaming video understanding. During video encoding it monitors the cache and, once a user-set threshold is reached, runs a lightweight compression pass that (i) removes temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii) keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four open-source MLLMs and four long-video and two streaming-video benchmarks, InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation, and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By dissolving the KV cache bottleneck without retraining or query knowledge, InfiniPot-V closes the gap for on-device streaming video assistants.
PDF122June 23, 2025