QuickVideo: Понимание длинных видео в реальном времени с совместной разработкой системных алгоритмов
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
May 22, 2025
Авторы: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Аннотация
Понимание длинных видео стало важной функцией в реальных приложениях, таких как видеонаблюдение, суммирование встреч, анализ образовательных лекций и спортивные трансляции. Однако для VideoLLM это остается вычислительно сложной задачей, в основном из-за двух узких мест: 1) последовательное декодирование видео — процесс преобразования исходного битового потока в RGB-кадры может занимать до минуты для часовых видео, и 2) дорогостоящее предварительное заполнение до нескольких миллионов токенов для вывода LLM, что приводит к высокой задержке и использованию памяти. Для решения этих проблем мы предлагаем QuickVideo, совместную системно-алгоритмическую разработку, которая значительно ускоряет понимание длинных видео для поддержки приложений в реальном времени. Она включает три ключевых инновации: QuickDecoder — параллелизированный декодер видео на основе CPU, который достигает ускорения в 2-3 раза за счет разделения видео на интервалы, выровненные по ключевым кадрам и обрабатываемые параллельно; QuickPrefill — метод предварительного заполнения с эффективным использованием памяти, использующий обрезку KV-кэша для поддержки большего количества кадров с меньшим объемом GPU-памяти; и схему перекрытия, которая совмещает декодирование видео на CPU с выводом на GPU. Вместе эти компоненты сокращают время вывода на минуту для длинных видео, обеспечивая масштабируемое и качественное понимание видео даже на ограниченном оборудовании. Эксперименты показывают, что QuickVideo обобщается для различных длительностей и частот выборки, делая обработку длинных видео практически осуществимой.
English
Long-video understanding has emerged as a crucial capability in real-world
applications such as video surveillance, meeting summarization, educational
lecture analysis, and sports broadcasting. However, it remains computationally
prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential
video decoding, the process of converting the raw bit stream to RGB frames can
take up to a minute for hour-long video inputs, and 2) costly prefilling of up
to several million tokens for LLM inference, resulting in high latency and
memory use. To address these challenges, we propose QuickVideo, a
system-algorithm co-design that substantially accelerates long-video
understanding to support real-time downstream applications. It comprises three
key innovations: QuickDecoder, a parallelized CPU-based video decoder that
achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals
processed concurrently; QuickPrefill, a memory-efficient prefilling method
using KV-cache pruning to support more frames with less GPU memory; and an
overlapping scheme that overlaps CPU video decoding with GPU inference.
Together, these components infernece time reduce by a minute on long video
inputs, enabling scalable, high-quality video understanding even on limited
hardware. Experiments show that QuickVideo generalizes across durations and
sampling rates, making long video processing feasible in practice.Summary
AI-Generated Summary