ChatPaper.aiChatPaper

InfiniPot-V: Compressão de Cache KV com Restrição de Memória para Transmissão de Vídeo Compreensão

InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

June 18, 2025
Autores: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI

Resumo

Os modernos modelos de linguagem multimodal de grande escala (MLLMs) são capazes de raciocinar sobre vídeos de longa duração, mas o cache de chave-valor (KV) cresce linearmente com o tempo—rapidamente excedendo a memória fixa de smartphones, óculos de realidade aumentada e robôs de borda. Esquemas de compressão anteriores assumem que o vídeo inteiro e a consulta do usuário estão disponíveis offline ou precisam primeiro construir o cache completo, de modo que a memória ainda escala com o comprimento do fluxo. O InfiniPot-V é o primeiro framework livre de treinamento e agnóstico à consulta que impõe um limite rígido e independente do comprimento da memória para o entendimento de vídeos em streaming. Durante a codificação do vídeo, ele monitora o cache e, uma vez que um limite definido pelo usuário é atingido, executa uma passagem de compressão leve que (i) remove tokens temporalmente redundantes por meio da métrica de Redundância no Eixo Temporal (TaR) e (ii) mantém tokens semanticamente significativos por meio da classificação de Norma de Valor (VaN). Em quatro MLLMs de código aberto e quatro benchmarks de vídeos longos e dois de vídeos em streaming, o InfiniPot-V reduz a memória de pico da GPU em até 94%, mantém a geração em tempo real e iguala ou supera a precisão do cache completo—mesmo em diálogos de múltiplas interações. Ao eliminar o gargalo do cache KV sem retreinamento ou conhecimento da consulta, o InfiniPot-V fecha a lacuna para assistentes de vídeo em streaming em dispositivos locais.
English
Modern multimodal large language models (MLLMs) can reason over hour-long video, yet their key-value (KV) cache grows linearly with time--quickly exceeding the fixed memory of phones, AR glasses, and edge robots. Prior compression schemes either assume the whole video and user query are available offline or must first build the full cache, so memory still scales with stream length. InfiniPot-V is the first training-free, query-agnostic framework that enforces a hard, length-independent memory cap for streaming video understanding. During video encoding it monitors the cache and, once a user-set threshold is reached, runs a lightweight compression pass that (i) removes temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii) keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four open-source MLLMs and four long-video and two streaming-video benchmarks, InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation, and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By dissolving the KV cache bottleneck without retraining or query knowledge, InfiniPot-V closes the gap for on-device streaming video assistants.
PDF132June 23, 2025