QuickVideo : Compréhension en temps réel de vidéos longues grâce à la co-conception système-algorithme
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
May 22, 2025
Auteurs: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Résumé
La compréhension des vidéos longues est devenue une capacité cruciale pour des applications réelles telles que la surveillance vidéo, la synthèse de réunions, l'analyse de cours éducatifs et la diffusion sportive. Cependant, elle reste prohibitivement coûteuse en termes de calcul pour les VideoLLMs, principalement en raison de deux goulots d'étranglement : 1) le décodage séquentiel des vidéos, processus de conversion du flux binaire brut en images RGB, qui peut prendre jusqu'à une minute pour des vidéos d'une heure, et 2) le préremplissage coûteux pouvant atteindre plusieurs millions de tokens pour l'inférence des LLM, entraînant une latence élevée et une utilisation importante de la mémoire. Pour relever ces défis, nous proposons QuickVideo, une co-conception système-algorithme qui accélère considérablement la compréhension des vidéos longues pour supporter des applications en temps réel. Elle comprend trois innovations clés : QuickDecoder, un décodeur vidéo parallélisé basé sur CPU qui obtient une accélération de 2 à 3 fois en divisant les vidéos en intervalles alignés sur les images clés traités simultanément ; QuickPrefill, une méthode de préremplissage économe en mémoire utilisant l'élagage du cache KV pour supporter plus d'images avec moins de mémoire GPU ; et un schéma de chevauchement qui superpose le décodage vidéo CPU avec l'inférence GPU. Ensemble, ces composants réduisent le temps d'inférence d'une minute sur les vidéos longues, permettant une compréhension vidéo évolutive et de haute qualité même sur du matériel limité. Les expériences montrent que QuickVideo se généralise à travers les durées et les taux d'échantillonnage, rendant le traitement des vidéos longues réalisable en pratique.
English
Long-video understanding has emerged as a crucial capability in real-world
applications such as video surveillance, meeting summarization, educational
lecture analysis, and sports broadcasting. However, it remains computationally
prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential
video decoding, the process of converting the raw bit stream to RGB frames can
take up to a minute for hour-long video inputs, and 2) costly prefilling of up
to several million tokens for LLM inference, resulting in high latency and
memory use. To address these challenges, we propose QuickVideo, a
system-algorithm co-design that substantially accelerates long-video
understanding to support real-time downstream applications. It comprises three
key innovations: QuickDecoder, a parallelized CPU-based video decoder that
achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals
processed concurrently; QuickPrefill, a memory-efficient prefilling method
using KV-cache pruning to support more frames with less GPU memory; and an
overlapping scheme that overlaps CPU video decoding with GPU inference.
Together, these components infernece time reduce by a minute on long video
inputs, enabling scalable, high-quality video understanding even on limited
hardware. Experiments show that QuickVideo generalizes across durations and
sampling rates, making long video processing feasible in practice.Summary
AI-Generated Summary