InfiniPot-V: 스트리밍 비디오를 위한 메모리 제약 KV 캐시 압축 이해
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
June 18, 2025
저자: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI
초록
현대의 다중 모달 대형 언어 모델(MLLMs)은 시간이 긴 동영상을 추론할 수 있지만, 키-값(KV) 캐시는 시간에 따라 선형적으로 증가하여 스마트폰, AR 안경, 엣지 로봇 등의 고정 메모리를 빠르게 초과한다. 기존의 압축 기법들은 전체 동영상과 사용자 쿼리가 오프라인에서 이용 가능하다고 가정하거나, 먼저 전체 캐시를 구축해야 하기 때문에 메모리가 스트림 길이에 비례하여 증가하는 문제가 여전히 존재한다. InfiniPot-V는 스트리밍 동영상 이해를 위해 하드웨어적, 길이 독립적인 메모리 상한을 강제하는 최초의 학습 없이도 적용 가능하며 쿼리와 무관한 프레임워크이다. 동영상 인코딩 과정에서 캐시를 모니터링하며, 사용자가 설정한 임계값에 도달하면 경량화된 압축 과정을 실행하여 (i) 시간 축 중복(TaR) 지표를 통해 시간적으로 중복된 토큰을 제거하고 (ii) 값-규범(VaN) 순위를 통해 의미적으로 중요한 토큰을 유지한다. 네 가지 오픈소스 MLLMs와 네 가지 장편 동영상 및 두 가지 스트리밍 동영상 벤치마크에서 InfiniPot-V는 GPU 메모리 사용량을 최대 94%까지 절감하며 실시간 생성 성능을 유지하고, 전체 캐시 정확도를 유지하거나 능가한다. 이는 다중 턴 대화에서도 마찬가지이다. 재학습이나 쿼리 정보 없이도 KV 캐시 병목 현상을 해소함으로써, InfiniPot-V는 온디바이스 스트리밍 동영상 어시스턴트를 위한 격차를 해소한다.
English
Modern multimodal large language models (MLLMs) can reason over hour-long
video, yet their key-value (KV) cache grows linearly with time--quickly
exceeding the fixed memory of phones, AR glasses, and edge robots. Prior
compression schemes either assume the whole video and user query are available
offline or must first build the full cache, so memory still scales with stream
length. InfiniPot-V is the first training-free, query-agnostic framework that
enforces a hard, length-independent memory cap for streaming video
understanding. During video encoding it monitors the cache and, once a user-set
threshold is reached, runs a lightweight compression pass that (i) removes
temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii)
keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four
open-source MLLMs and four long-video and two streaming-video benchmarks,
InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation,
and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By
dissolving the KV cache bottleneck without retraining or query knowledge,
InfiniPot-V closes the gap for on-device streaming video assistants.