HERMES:効率的なストリーミング動画理解のための階層型メモリとしてのKVキャッシュ
HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
January 21, 2026
著者: Haowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu
cs.AI
要旨
近年、マルチモーダル大規模言語モデル(MLLM)の進歩により、オフライン動画理解の性能が大幅に向上している。しかし、これらの能力をストリーミング動画入力に拡張することは依然として課題であり、既存モデルは安定した理解性能、リアルタイム応答、低GPUメモリ負荷を同時に維持することが困難である。この課題に対処するため、我々はリアルタイムかつ正確な動画ストリーム理解のための訓練不要の新規アーキテクチャ「HERMES」を提案する。注意機構のメカニズム分析に基づき、我々はKVキャッシュを複数の粒度で動画情報を包含する階層的メモリフレームワークとして概念化する。推論時、HERMESはコンパクトなKVキャッシュを再利用することで、リソース制約下での効率的なストリーミング理解を実現する。特筆すべきは、HERMESがユーザークエリ到着時に追加計算を必要とせず、連続的な動画ストリーム対話におけるリアルタイム応答を保証することであり、従来のSOTAと比較してTTFTを10倍高速化する。均一サンプリングと比較して動画トークンを最大68%削減した場合でも、HERMESは全てのベンチマークで同等または優れた精度を達成し、ストリーミングデータセットでは最大11.4%の精度向上を示す。
English
Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated significant improvement in offline video understanding. However, extending these capabilities to streaming video inputs, remains challenging, as existing models struggle to simultaneously maintain stable understanding performance, real-time responses, and low GPU memory overhead. To address this challenge, we propose HERMES, a novel training-free architecture for real-time and accurate understanding of video streams. Based on a mechanistic attention investigation, we conceptualize KV cache as a hierarchical memory framework that encapsulates video information across multiple granularities. During inference, HERMES reuses a compact KV cache, enabling efficient streaming understanding under resource constraints. Notably, HERMES requires no auxiliary computations upon the arrival of user queries, thereby guaranteeing real-time responses for continuous video stream interactions, which achieves 10times faster TTFT compared to prior SOTA. Even when reducing video tokens by up to 68% compared with uniform sampling, HERMES achieves superior or comparable accuracy across all benchmarks, with up to 11.4% gains on streaming datasets.