QuickVideo : Compréhension en temps réel de vidéos longues grâce à la co-conception système-algorithme

papers.abstract

La compréhension des vidéos longues est devenue une capacité cruciale pour des applications réelles telles que la surveillance vidéo, la synthèse de réunions, l'analyse de cours éducatifs et la diffusion sportive. Cependant, elle reste prohibitivement coûteuse en termes de calcul pour les VideoLLMs, principalement en raison de deux goulots d'étranglement : 1) le décodage séquentiel des vidéos, processus de conversion du flux binaire brut en images RGB, qui peut prendre jusqu'à une minute pour des vidéos d'une heure, et 2) le préremplissage coûteux pouvant atteindre plusieurs millions de tokens pour l'inférence des LLM, entraînant une latence élevée et une utilisation importante de la mémoire. Pour relever ces défis, nous proposons QuickVideo, une co-conception système-algorithme qui accélère considérablement la compréhension des vidéos longues pour supporter des applications en temps réel. Elle comprend trois innovations clés : QuickDecoder, un décodeur vidéo parallélisé basé sur CPU qui obtient une accélération de 2 à 3 fois en divisant les vidéos en intervalles alignés sur les images clés traités simultanément ; QuickPrefill, une méthode de préremplissage économe en mémoire utilisant l'élagage du cache KV pour supporter plus d'images avec moins de mémoire GPU ; et un schéma de chevauchement qui superpose le décodage vidéo CPU avec l'inférence GPU. Ensemble, ces composants réduisent le temps d'inférence d'une minute sur les vidéos longues, permettant une compréhension vidéo évolutive et de haute qualité même sur du matériel limité. Les expériences montrent que QuickVideo se généralise à travers les durées et les taux d'échantillonnage, rendant le traitement des vidéos longues réalisable en pratique.

English

Long-video understanding has emerged as a crucial capability in real-world applications such as video surveillance, meeting summarization, educational lecture analysis, and sports broadcasting. However, it remains computationally prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential video decoding, the process of converting the raw bit stream to RGB frames can take up to a minute for hour-long video inputs, and 2) costly prefilling of up to several million tokens for LLM inference, resulting in high latency and memory use. To address these challenges, we propose QuickVideo, a system-algorithm co-design that substantially accelerates long-video understanding to support real-time downstream applications. It comprises three key innovations: QuickDecoder, a parallelized CPU-based video decoder that achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals processed concurrently; QuickPrefill, a memory-efficient prefilling method using KV-cache pruning to support more frames with less GPU memory; and an overlapping scheme that overlaps CPU video decoding with GPU inference. Together, these components infernece time reduce by a minute on long video inputs, enabling scalable, high-quality video understanding even on limited hardware. Experiments show that QuickVideo generalizes across durations and sampling rates, making long video processing feasible in practice.

QuickVideo : Compréhension en temps réel de vidéos longues grâce à la co-conception système-algorithme

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

papers.abstract

Support