ChatPaper.aiChatPaper

InfiniPot-V : Compression du cache KV sous contrainte mémoire pour la vidéo en streaming Compréhension

InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

June 18, 2025
Auteurs: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI

Résumé

Les modèles de langage multimodaux de grande envergure (MLLMs) modernes peuvent raisonner sur des vidéos d'une heure, mais leur cache clé-valeur (KV) croît linéairement avec le temps, dépassant rapidement la mémoire fixe des téléphones, des lunettes AR et des robots périphériques. Les schémas de compression antérieurs supposent soit que la vidéo entière et la requête de l'utilisateur sont disponibles hors ligne, soit qu'ils doivent d'abord construire le cache complet, de sorte que la mémoire continue de s'étendre avec la durée du flux. InfiniPot-V est le premier cadre d'analyse sans apprentissage et indépendant des requêtes qui impose une limite de mémoire stricte et indépendante de la durée pour la compréhension des vidéos en flux continu. Pendant l'encodage de la vidéo, il surveille le cache et, une fois qu'un seuil défini par l'utilisateur est atteint, exécute une passe de compression légère qui (i) supprime les tokens redondants dans le temps via la métrique de redondance temporelle (TaR) et (ii) conserve les tokens sémantiquement significatifs via le classement basé sur la norme des valeurs (VaN). Sur quatre MLLMs open-source et quatre benchmarks de vidéos longues et deux de vidéos en flux continu, InfiniPot-V réduit la mémoire GPU maximale jusqu'à 94%, maintient une génération en temps réel et correspond ou dépasse la précision du cache complet—même dans des dialogues multi-tours. En éliminant le goulot d'étranglement du cache KV sans nécessiter de réentraînement ou de connaissance des requêtes, InfiniPot-V comble le fossé pour les assistants vidéo en flux continu sur appareil.
English
Modern multimodal large language models (MLLMs) can reason over hour-long video, yet their key-value (KV) cache grows linearly with time--quickly exceeding the fixed memory of phones, AR glasses, and edge robots. Prior compression schemes either assume the whole video and user query are available offline or must first build the full cache, so memory still scales with stream length. InfiniPot-V is the first training-free, query-agnostic framework that enforces a hard, length-independent memory cap for streaming video understanding. During video encoding it monitors the cache and, once a user-set threshold is reached, runs a lightweight compression pass that (i) removes temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii) keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four open-source MLLMs and four long-video and two streaming-video benchmarks, InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation, and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By dissolving the KV cache bottleneck without retraining or query knowledge, InfiniPot-V closes the gap for on-device streaming video assistants.
PDF102June 23, 2025