ChatPaper.aiChatPaper

HERMES: 효율적인 스트리밍 비디오 이해를 위한 계층적 메모리로서의 KV 캐시

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

January 21, 2026
저자: Haowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu
cs.AI

초록

최근 멀티모달 대규모 언어 모델(MLLMs)의 발전으로 오프라인 비디오 이해 능력이 크게 향상되었습니다. 그러나 이러한 능력을 스트리밍 비디오 입력으로 확장하는 것은 기존 모델이 안정적인 이해 성능, 실시간 응답, 낮은 GPU 메모리 오버헤드를 동시에 유지하는 데 어려움을 겪음에 따라 여전히 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 우리는 실시간으로 정확한 비디오 스트림 이해가 가능한 새로운 학습 불필요(non-training) 아키텍처인 HERMES를 제안합니다. 메커니즘 어텐션 분석을 바탕으로 우리는 KV 캐시를 여러 세분화 수준에서 비디오 정보를 캡슐화하는 계층적 메모리 프레임워크로 개념화합니다. 추론 과정에서 HERMES는 컴팩트한 KV 캐시를 재사용하여 자원 제약 조건 내에서 효율적인 스트리밍 이해를 가능하게 합니다. 특히 HERMES는 사용자 쿼리 도착 시 추가적인 계산이 필요하지 않아 연속적인 비디오 스트림 상호작용에 대한 실시간 응답을 보장하며, 이는 기존 SOTA 대비 TTFT를 10배 이상 단축합니다. 균일 샘플링 대비 비디오 토큰을 최대 68%까지 감소시키는 경우에도 HERMES는 모든 벤치마크에서 우수하거나 비슷한 정확도를 달성하며, 스트리밍 데이터셋에서 최대 11.4%의 성능 향상을 보입니다.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated significant improvement in offline video understanding. However, extending these capabilities to streaming video inputs, remains challenging, as existing models struggle to simultaneously maintain stable understanding performance, real-time responses, and low GPU memory overhead. To address this challenge, we propose HERMES, a novel training-free architecture for real-time and accurate understanding of video streams. Based on a mechanistic attention investigation, we conceptualize KV cache as a hierarchical memory framework that encapsulates video information across multiple granularities. During inference, HERMES reuses a compact KV cache, enabling efficient streaming understanding under resource constraints. Notably, HERMES requires no auxiliary computations upon the arrival of user queries, thereby guaranteeing real-time responses for continuous video stream interactions, which achieves 10times faster TTFT compared to prior SOTA. Even when reducing video tokens by up to 68% compared with uniform sampling, HERMES achieves superior or comparable accuracy across all benchmarks, with up to 11.4% gains on streaming datasets.
PDF521January 24, 2026