QuickVideo: Comprensione in Tempo Reale di Video Lunghi con Co-Progettazione di Sistema e Algoritmo

Abstract

La comprensione di video lunghi è emersa come una capacità cruciale in applicazioni del mondo reale come la sorveglianza video, la sintesi di riunioni, l'analisi di lezioni educative e la trasmissione sportiva. Tuttavia, rimane computazionalmente proibitiva per i VideoLLM, principalmente a causa di due colli di bottiglia: 1) la decodifica sequenziale del video, il processo di conversione del flusso di bit grezzo in fotogrammi RGB può richiedere fino a un minuto per input video di un'ora, e 2) il costoso prefilling di fino a diversi milioni di token per l'inferenza LLM, che comporta un'elevata latenza e uso di memoria. Per affrontare queste sfide, proponiamo QuickVideo, una co-progettazione sistema-algoritmo che accelera significativamente la comprensione di video lunghi per supportare applicazioni downstream in tempo reale. Comprende tre innovazioni chiave: QuickDecoder, un decodificatore video basato su CPU parallelizzato che ottiene un'accelerazione di 2-3 volte suddividendo i video in intervalli allineati ai fotogrammi chiave elaborati in modo concorrente; QuickPrefill, un metodo di prefilling efficiente in termini di memoria che utilizza la potatura della cache KV per supportare più fotogrammi con meno memoria GPU; e uno schema di sovrapposizione che sovrappone la decodifica video della CPU con l'inferenza della GPU. Insieme, questi componenti riducono il tempo di inferenza di un minuto su input video lunghi, consentendo una comprensione video scalabile e di alta qualità anche su hardware limitato. Gli esperimenti dimostrano che QuickVideo si generalizza su durate e frequenze di campionamento, rendendo fattibile l'elaborazione di video lunghi nella pratica.

English

Long-video understanding has emerged as a crucial capability in real-world applications such as video surveillance, meeting summarization, educational lecture analysis, and sports broadcasting. However, it remains computationally prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential video decoding, the process of converting the raw bit stream to RGB frames can take up to a minute for hour-long video inputs, and 2) costly prefilling of up to several million tokens for LLM inference, resulting in high latency and memory use. To address these challenges, we propose QuickVideo, a system-algorithm co-design that substantially accelerates long-video understanding to support real-time downstream applications. It comprises three key innovations: QuickDecoder, a parallelized CPU-based video decoder that achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals processed concurrently; QuickPrefill, a memory-efficient prefilling method using KV-cache pruning to support more frames with less GPU memory; and an overlapping scheme that overlaps CPU video decoding with GPU inference. Together, these components infernece time reduce by a minute on long video inputs, enabling scalable, high-quality video understanding even on limited hardware. Experiments show that QuickVideo generalizes across durations and sampling rates, making long video processing feasible in practice.

QuickVideo: Comprensione in Tempo Reale di Video Lunghi con Co-Progettazione di Sistema e Algoritmo

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

Abstract

Support