QuickVideo: Compreensão de Vídeos Longos em Tempo Real com Co-Design de Algoritmo e Sistema
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
May 22, 2025
Autores: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Resumo
A compreensão de vídeos longos emergiu como uma capacidade crucial em aplicações do mundo real, como vigilância por vídeo, resumo de reuniões, análise de palestras educacionais e transmissão esportiva. No entanto, ela continua sendo computacionalmente proibitiva para VideoLLMs, principalmente devido a dois gargalos: 1) a decodificação sequencial de vídeo, o processo de conversão do fluxo de bits brutos para quadros RGB, pode levar até um minuto para entradas de vídeo de uma hora, e 2) o preenchimento custoso de até vários milhões de tokens para inferência de LLM, resultando em alta latência e uso de memória. Para enfrentar esses desafios, propomos o QuickVideo, uma co-projeto de sistema-algoritmo que acelera substancialmente a compreensão de vídeos longos para suportar aplicações em tempo real. Ele compreende três inovações principais: QuickDecoder, um decodificador de vídeo baseado em CPU paralelizado que alcança uma aceleração de 2 a 3 vezes ao dividir vídeos em intervalos alinhados por keyframes processados simultaneamente; QuickPrefill, um método de preenchimento eficiente em memória que utiliza poda de cache KV para suportar mais quadros com menos memória GPU; e um esquema de sobreposição que sobrepõe a decodificação de vídeo na CPU com a inferência na GPU. Juntos, esses componentes reduzem o tempo de inferência em um minuto para entradas de vídeo longos, permitindo uma compreensão de vídeo escalável e de alta qualidade mesmo em hardware limitado. Experimentos mostram que o QuickVideo generaliza-se em durações e taxas de amostragem, tornando o processamento de vídeos longos viável na prática.
English
Long-video understanding has emerged as a crucial capability in real-world
applications such as video surveillance, meeting summarization, educational
lecture analysis, and sports broadcasting. However, it remains computationally
prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential
video decoding, the process of converting the raw bit stream to RGB frames can
take up to a minute for hour-long video inputs, and 2) costly prefilling of up
to several million tokens for LLM inference, resulting in high latency and
memory use. To address these challenges, we propose QuickVideo, a
system-algorithm co-design that substantially accelerates long-video
understanding to support real-time downstream applications. It comprises three
key innovations: QuickDecoder, a parallelized CPU-based video decoder that
achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals
processed concurrently; QuickPrefill, a memory-efficient prefilling method
using KV-cache pruning to support more frames with less GPU memory; and an
overlapping scheme that overlaps CPU video decoding with GPU inference.
Together, these components infernece time reduce by a minute on long video
inputs, enabling scalable, high-quality video understanding even on limited
hardware. Experiments show that QuickVideo generalizes across durations and
sampling rates, making long video processing feasible in practice.