QuickVideo: Compreensão de Vídeos Longos em Tempo Real com Co-Design de Algoritmo e Sistema

Resumo

A compreensão de vídeos longos emergiu como uma capacidade crucial em aplicações do mundo real, como vigilância por vídeo, resumo de reuniões, análise de palestras educacionais e transmissão esportiva. No entanto, ela continua sendo computacionalmente proibitiva para VideoLLMs, principalmente devido a dois gargalos: 1) a decodificação sequencial de vídeo, o processo de conversão do fluxo de bits brutos para quadros RGB, pode levar até um minuto para entradas de vídeo de uma hora, e 2) o preenchimento custoso de até vários milhões de tokens para inferência de LLM, resultando em alta latência e uso de memória. Para enfrentar esses desafios, propomos o QuickVideo, uma co-projeto de sistema-algoritmo que acelera substancialmente a compreensão de vídeos longos para suportar aplicações em tempo real. Ele compreende três inovações principais: QuickDecoder, um decodificador de vídeo baseado em CPU paralelizado que alcança uma aceleração de 2 a 3 vezes ao dividir vídeos em intervalos alinhados por keyframes processados simultaneamente; QuickPrefill, um método de preenchimento eficiente em memória que utiliza poda de cache KV para suportar mais quadros com menos memória GPU; e um esquema de sobreposição que sobrepõe a decodificação de vídeo na CPU com a inferência na GPU. Juntos, esses componentes reduzem o tempo de inferência em um minuto para entradas de vídeo longos, permitindo uma compreensão de vídeo escalável e de alta qualidade mesmo em hardware limitado. Experimentos mostram que o QuickVideo generaliza-se em durações e taxas de amostragem, tornando o processamento de vídeos longos viável na prática.

English

Long-video understanding has emerged as a crucial capability in real-world applications such as video surveillance, meeting summarization, educational lecture analysis, and sports broadcasting. However, it remains computationally prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential video decoding, the process of converting the raw bit stream to RGB frames can take up to a minute for hour-long video inputs, and 2) costly prefilling of up to several million tokens for LLM inference, resulting in high latency and memory use. To address these challenges, we propose QuickVideo, a system-algorithm co-design that substantially accelerates long-video understanding to support real-time downstream applications. It comprises three key innovations: QuickDecoder, a parallelized CPU-based video decoder that achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals processed concurrently; QuickPrefill, a memory-efficient prefilling method using KV-cache pruning to support more frames with less GPU memory; and an overlapping scheme that overlaps CPU video decoding with GPU inference. Together, these components infernece time reduce by a minute on long video inputs, enabling scalable, high-quality video understanding even on limited hardware. Experiments show that QuickVideo generalizes across durations and sampling rates, making long video processing feasible in practice.

QuickVideo: Compreensão de Vídeos Longos em Tempo Real com Co-Design de Algoritmo e Sistema

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

Resumo

Support