QuickVideo: Comprensión de Vídeos Largos en Tiempo Real con Co-Diseño de Sistemas y Algoritmos
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
May 22, 2025
Autores: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Resumen
La comprensión de videos largos ha surgido como una capacidad crucial en aplicaciones del mundo real, como la vigilancia por video, la resumen de reuniones, el análisis de conferencias educativas y la transmisión de eventos deportivos. Sin embargo, sigue siendo computacionalmente prohibitivo para los VideoLLM, principalmente debido a dos cuellos de botella: 1) la decodificación secuencial de video, el proceso de convertir el flujo de bits en bruto a fotogramas RGB puede tomar hasta un minuto para entradas de video de una hora de duración, y 2) el costoso prellenado de hasta varios millones de tokens para la inferencia del LLM, lo que resulta en una alta latencia y uso de memoria. Para abordar estos desafíos, proponemos QuickVideo, un co-diseño sistema-algoritmo que acelera sustancialmente la comprensión de videos largos para apoyar aplicaciones en tiempo real. Este consta de tres innovaciones clave: QuickDecoder, un decodificador de video basado en CPU y paralelizado que logra una aceleración de 2 a 3 veces al dividir los videos en intervalos alineados con fotogramas clave procesados concurrentemente; QuickPrefill, un método de prellenado eficiente en memoria que utiliza la poda de la caché KV para admitir más fotogramas con menos memoria GPU; y un esquema de superposición que combina la decodificación de video en la CPU con la inferencia en la GPU. Juntos, estos componentes reducen el tiempo de inferencia en un minuto para entradas de video largas, permitiendo una comprensión de video escalable y de alta calidad incluso en hardware limitado. Los experimentos muestran que QuickVideo generaliza a través de duraciones y tasas de muestreo, haciendo factible el procesamiento de videos largos en la práctica.
English
Long-video understanding has emerged as a crucial capability in real-world
applications such as video surveillance, meeting summarization, educational
lecture analysis, and sports broadcasting. However, it remains computationally
prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential
video decoding, the process of converting the raw bit stream to RGB frames can
take up to a minute for hour-long video inputs, and 2) costly prefilling of up
to several million tokens for LLM inference, resulting in high latency and
memory use. To address these challenges, we propose QuickVideo, a
system-algorithm co-design that substantially accelerates long-video
understanding to support real-time downstream applications. It comprises three
key innovations: QuickDecoder, a parallelized CPU-based video decoder that
achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals
processed concurrently; QuickPrefill, a memory-efficient prefilling method
using KV-cache pruning to support more frames with less GPU memory; and an
overlapping scheme that overlaps CPU video decoding with GPU inference.
Together, these components infernece time reduce by a minute on long video
inputs, enabling scalable, high-quality video understanding even on limited
hardware. Experiments show that QuickVideo generalizes across durations and
sampling rates, making long video processing feasible in practice.Summary
AI-Generated Summary