HERMES: Caché KV como Memoria Jerárquica para la Comprensión Eficiente de Vídeo en Streaming

Resumen

Los recientes avances en Modelos de Lenguaje Grandes Multimodales (MLLMs) han demostrado una mejora significativa en la comprensión de vídeo offline. Sin embargo, extender estas capacidades a entradas de vídeo en streaming sigue siendo un desafío, ya que los modelos existentes luchan por mantener simultáneamente un rendimiento de comprensión estable, respuestas en tiempo real y un bajo uso de memoria de GPU. Para abordar este desafío, proponemos HERMES, una novedosa arquitectura libre de entrenamiento para la comprensión precisa y en tiempo real de flujos de vídeo. Basándonos en una investigación mecanicista de la atención, conceptualizamos la caché KV como un marco de memoria jerárquico que encapsula la información del vídeo a múltiples niveles de granularidad. Durante la inferencia, HERMES reutiliza una caché KV compacta, permitiendo una comprensión eficiente del streaming bajo restricciones de recursos. Cabe destacar que HERMES no requiere cálculos auxiliares ante la llegada de consultas del usuario, garantizando así respuestas en tiempo real para interacciones con flujos de vídeo continuos, lo que logra un TTFT 10 veces más rápido en comparación con el SOTA anterior. Incluso al reducir los tokens de vídeo hasta en un 68% en comparación con el muestreo uniforme, HERMES logra una precisión superior o comparable en todos los puntos de referencia, con ganancias de hasta el 11.4% en conjuntos de datos de streaming.

English

Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated significant improvement in offline video understanding. However, extending these capabilities to streaming video inputs, remains challenging, as existing models struggle to simultaneously maintain stable understanding performance, real-time responses, and low GPU memory overhead. To address this challenge, we propose HERMES, a novel training-free architecture for real-time and accurate understanding of video streams. Based on a mechanistic attention investigation, we conceptualize KV cache as a hierarchical memory framework that encapsulates video information across multiple granularities. During inference, HERMES reuses a compact KV cache, enabling efficient streaming understanding under resource constraints. Notably, HERMES requires no auxiliary computations upon the arrival of user queries, thereby guaranteeing real-time responses for continuous video stream interactions, which achieves 10times faster TTFT compared to prior SOTA. Even when reducing video tokens by up to 68% compared with uniform sampling, HERMES achieves superior or comparable accuracy across all benchmarks, with up to 11.4% gains on streaming datasets.