QuickVideo: Comprensione in Tempo Reale di Video Lunghi con Co-Progettazione di Sistema e Algoritmo
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
May 22, 2025
Autori: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Abstract
La comprensione di video lunghi è emersa come una capacità cruciale in applicazioni del mondo reale come la sorveglianza video, la sintesi di riunioni, l'analisi di lezioni educative e la trasmissione sportiva. Tuttavia, rimane computazionalmente proibitiva per i VideoLLM, principalmente a causa di due colli di bottiglia: 1) la decodifica sequenziale del video, il processo di conversione del flusso di bit grezzo in fotogrammi RGB può richiedere fino a un minuto per input video di un'ora, e 2) il costoso prefilling di fino a diversi milioni di token per l'inferenza LLM, che comporta un'elevata latenza e uso di memoria. Per affrontare queste sfide, proponiamo QuickVideo, una co-progettazione sistema-algoritmo che accelera significativamente la comprensione di video lunghi per supportare applicazioni downstream in tempo reale. Comprende tre innovazioni chiave: QuickDecoder, un decodificatore video basato su CPU parallelizzato che ottiene un'accelerazione di 2-3 volte suddividendo i video in intervalli allineati ai fotogrammi chiave elaborati in modo concorrente; QuickPrefill, un metodo di prefilling efficiente in termini di memoria che utilizza la potatura della cache KV per supportare più fotogrammi con meno memoria GPU; e uno schema di sovrapposizione che sovrappone la decodifica video della CPU con l'inferenza della GPU. Insieme, questi componenti riducono il tempo di inferenza di un minuto su input video lunghi, consentendo una comprensione video scalabile e di alta qualità anche su hardware limitato. Gli esperimenti dimostrano che QuickVideo si generalizza su durate e frequenze di campionamento, rendendo fattibile l'elaborazione di video lunghi nella pratica.
English
Long-video understanding has emerged as a crucial capability in real-world
applications such as video surveillance, meeting summarization, educational
lecture analysis, and sports broadcasting. However, it remains computationally
prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential
video decoding, the process of converting the raw bit stream to RGB frames can
take up to a minute for hour-long video inputs, and 2) costly prefilling of up
to several million tokens for LLM inference, resulting in high latency and
memory use. To address these challenges, we propose QuickVideo, a
system-algorithm co-design that substantially accelerates long-video
understanding to support real-time downstream applications. It comprises three
key innovations: QuickDecoder, a parallelized CPU-based video decoder that
achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals
processed concurrently; QuickPrefill, a memory-efficient prefilling method
using KV-cache pruning to support more frames with less GPU memory; and an
overlapping scheme that overlaps CPU video decoding with GPU inference.
Together, these components infernece time reduce by a minute on long video
inputs, enabling scalable, high-quality video understanding even on limited
hardware. Experiments show that QuickVideo generalizes across durations and
sampling rates, making long video processing feasible in practice.