ChatPaper.aiChatPaper

InfiniPot-V: Compresión de Caché KV con Restricciones de Memoria para la Comprensión de Video en Streaming

InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

June 18, 2025
Autores: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI

Resumen

Los modelos modernos de lenguaje multimodal de gran escala (MLLMs) pueden razonar sobre videos de una hora de duración, pero su caché clave-valor (KV) crece linealmente con el tiempo, superando rápidamente la memoria fija de teléfonos, gafas de realidad aumentada y robots de borde. Los esquemas de compresión anteriores asumen que el video completo y la consulta del usuario están disponibles sin conexión o deben construir primero la caché completa, por lo que la memoria sigue escalando con la longitud de la transmisión. InfiniPot-V es el primer marco de trabajo agnóstico a la consulta y sin entrenamiento que impone un límite de memoria fijo e independiente de la longitud para la comprensión de videos en tiempo real. Durante la codificación del video, monitorea la caché y, una vez que se alcanza un umbral establecido por el usuario, ejecuta una pasada de compresión ligera que (i) elimina tokens temporalmente redundantes mediante la métrica de Redundancia en el Eje Temporal (TaR) y (ii) conserva tokens semánticamente significativos mediante el ranking de Norma de Valor (VaN). En cuatro MLLMs de código abierto y cuatro benchmarks de videos largos y dos de videos en tiempo real, InfiniPot-V reduce la memoria máxima de GPU hasta en un 94%, mantiene la generación en tiempo real y coincide o supera la precisión de la caché completa, incluso en diálogos de múltiples turnos. Al eliminar el cuello de botella de la caché KV sin necesidad de reentrenamiento o conocimiento previo de la consulta, InfiniPot-V cierra la brecha para los asistentes de video en tiempo real en dispositivos locales.
English
Modern multimodal large language models (MLLMs) can reason over hour-long video, yet their key-value (KV) cache grows linearly with time--quickly exceeding the fixed memory of phones, AR glasses, and edge robots. Prior compression schemes either assume the whole video and user query are available offline or must first build the full cache, so memory still scales with stream length. InfiniPot-V is the first training-free, query-agnostic framework that enforces a hard, length-independent memory cap for streaming video understanding. During video encoding it monitors the cache and, once a user-set threshold is reached, runs a lightweight compression pass that (i) removes temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii) keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four open-source MLLMs and four long-video and two streaming-video benchmarks, InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation, and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By dissolving the KV cache bottleneck without retraining or query knowledge, InfiniPot-V closes the gap for on-device streaming video assistants.
PDF102June 23, 2025