InfiniPot-V: Speicherbeschränkte KV-Cache-Komprimierung für Streaming-Video Verständnis
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
June 18, 2025
Autoren: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI
Zusammenfassung
Moderne multimodale Large Language Models (MLLMs) können über stundenlange Videos schlussfolgern, doch ihr Key-Value (KV)-Cache wächst linear mit der Zeit – und übersteigt schnell den begrenzten Speicher von Smartphones, AR-Brillen und Edge-Robotern. Bisherige Kompressionsverfahren gehen entweder davon aus, dass das gesamte Video und die Benutzeranfrage offline verfügbar sind, oder müssen zunächst den vollständigen Cache aufbauen, sodass der Speicherbedarf weiterhin mit der Länge des Streams skaliert. InfiniPot-V ist das erste trainingsfreie, abfrageunabhängige Framework, das eine strikte, längenunabhängige Speicherbegrenzung für das Verständnis von Streaming-Videos durchsetzt. Während der Videokodierung überwacht es den Cache und führt, sobald ein benutzerdefinierter Schwellenwert erreicht ist, eine leichtgewichtige Kompression durch, die (i) zeitlich redundante Token mithilfe der Temporal-axis Redundancy (TaR)-Metrik entfernt und (ii) semantisch bedeutsame Token durch Value-Norm (VaN)-Ranking beibehält. Über vier Open-Source-MLLMs und vier Langvideo- sowie zwei Streaming-Video-Benchmarks hinweg reduziert InfiniPot-V den Spitzen-GPU-Speicher um bis zu 94%, ermöglicht Echtzeitgenerierung und erreicht oder übertrifft die Genauigkeit des vollständigen Caches – selbst in mehrfachen Dialogen. Indem es den KV-Cache-Engpass ohne Neustraining oder Kenntnis der Abfrage auflöst, schließt InfiniPot-V die Lücke für On-Device-Streaming-Video-Assistenten.
English
Modern multimodal large language models (MLLMs) can reason over hour-long
video, yet their key-value (KV) cache grows linearly with time--quickly
exceeding the fixed memory of phones, AR glasses, and edge robots. Prior
compression schemes either assume the whole video and user query are available
offline or must first build the full cache, so memory still scales with stream
length. InfiniPot-V is the first training-free, query-agnostic framework that
enforces a hard, length-independent memory cap for streaming video
understanding. During video encoding it monitors the cache and, once a user-set
threshold is reached, runs a lightweight compression pass that (i) removes
temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii)
keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four
open-source MLLMs and four long-video and two streaming-video benchmarks,
InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation,
and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By
dissolving the KV cache bottleneck without retraining or query knowledge,
InfiniPot-V closes the gap for on-device streaming video assistants.