InfiniPot-V: Geheugenbeperkte KV-cachecompressie voor streamingvideo's begrijpen
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
June 18, 2025
Auteurs: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI
Samenvatting
Moderne multimodale grote taalmodellen (MLLMs) kunnen redeneren over video's van een uur lang, maar hun key-value (KV) cache groeit lineair met de tijd en overschrijdt snel het vaste geheugen van telefoons, AR-brillen en edge-robots. Bestaande compressieschema's gaan ervan uit dat de hele video en gebruikersquery offline beschikbaar zijn of moeten eerst de volledige cache opbouwen, waardoor het geheugen nog steeds schaalt met de lengte van de stream. InfiniPot-V is het eerste trainingsvrije, query-agnostische framework dat een harde, lengte-onafhankelijke geheugenlimiet afdwingt voor het begrijpen van streaming video. Tijdens het coderen van de video houdt het de cache in de gaten en, zodra een door de gebruiker ingestelde drempel is bereikt, voert het een lichtgewicht compressie uit die (i) tijdelijk redundante tokens verwijdert via de Temporal-axis Redundancy (TaR) metriek en (ii) semantisch significante tokens behoudt via Value-Norm (VaN) rangschikking. Over vier open-source MLLMs en vier lange-video en twee streaming-video benchmarks, reduceert InfiniPot-V het piek-GPU-geheugen met tot wel 94%, behoudt real-time generatie en evenaart of overtreft de nauwkeurigheid van de volledige cache—zelfs in meerronde dialogen. Door de KV-cache-knelpunt op te lossen zonder hertraining of kennis van de query, sluit InfiniPot-V de kloof voor on-device streaming video-assistenten.
English
Modern multimodal large language models (MLLMs) can reason over hour-long
video, yet their key-value (KV) cache grows linearly with time--quickly
exceeding the fixed memory of phones, AR glasses, and edge robots. Prior
compression schemes either assume the whole video and user query are available
offline or must first build the full cache, so memory still scales with stream
length. InfiniPot-V is the first training-free, query-agnostic framework that
enforces a hard, length-independent memory cap for streaming video
understanding. During video encoding it monitors the cache and, once a user-set
threshold is reached, runs a lightweight compression pass that (i) removes
temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii)
keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four
open-source MLLMs and four long-video and two streaming-video benchmarks,
InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation,
and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By
dissolving the KV cache bottleneck without retraining or query knowledge,
InfiniPot-V closes the gap for on-device streaming video assistants.