QuickVideo: Echtzeit-Verständnis langer Videos durch System-Algorithmus-Co-Design
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
May 22, 2025
Autoren: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Zusammenfassung
Das Verständnis von langen Videos hat sich als entscheidende Fähigkeit in realen Anwendungen wie Videoüberwachung, Besprechungszusammenfassung, Analyse von Bildungsvorträgen und Sportübertragungen herausgestellt. Es bleibt jedoch für VideoLLMs aufgrund von zwei Engpässen rechenintensiv: 1) Die sequenzielle Videodekodierung, also der Prozess der Umwandlung des Rohdatenstroms in RGB-Bilder, kann bei stundenlangen Videoeingaben bis zu einer Minute dauern, und 2) das kostspielige Vorausfüllen von bis zu mehreren Millionen Token für die LLM-Inferenz, was zu hoher Latenz und Speichernutzung führt. Um diese Herausforderungen zu bewältigen, schlagen wir QuickVideo vor, ein System-Algorithmus-Co-Design, das das Verständnis von langen Videos erheblich beschleunigt, um Echtzeitanwendungen zu unterstützen. Es besteht aus drei Schlüsselinnovationen: QuickDecoder, einem parallelisierten CPU-basierten Videodecoder, der durch die Aufteilung von Videos in keyframe-ausgerichtete Intervalle, die gleichzeitig verarbeitet werden, eine 2-3-fache Beschleunigung erreicht; QuickPrefill, einer speichereffizienten Vorausfüllmethode, die KV-Cache-Beschneidung verwendet, um mehr Bilder mit weniger GPU-Speicher zu unterstützen; und einem Überlappungsschema, das die CPU-Videodekodierung mit der GPU-Inferenz überlappt. Zusammen reduzieren diese Komponenten die Inferenzzeit bei langen Videoeingaben um eine Minute und ermöglichen so skalierbares, hochwertiges Videoverständnis auch auf begrenzter Hardware. Experimente zeigen, dass QuickVideo über verschiedene Dauer und Abtastraten hinweg generalisiert, was die Verarbeitung langer Videos in der Praxis machbar macht.
English
Long-video understanding has emerged as a crucial capability in real-world
applications such as video surveillance, meeting summarization, educational
lecture analysis, and sports broadcasting. However, it remains computationally
prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential
video decoding, the process of converting the raw bit stream to RGB frames can
take up to a minute for hour-long video inputs, and 2) costly prefilling of up
to several million tokens for LLM inference, resulting in high latency and
memory use. To address these challenges, we propose QuickVideo, a
system-algorithm co-design that substantially accelerates long-video
understanding to support real-time downstream applications. It comprises three
key innovations: QuickDecoder, a parallelized CPU-based video decoder that
achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals
processed concurrently; QuickPrefill, a memory-efficient prefilling method
using KV-cache pruning to support more frames with less GPU memory; and an
overlapping scheme that overlaps CPU video decoding with GPU inference.
Together, these components infernece time reduce by a minute on long video
inputs, enabling scalable, high-quality video understanding even on limited
hardware. Experiments show that QuickVideo generalizes across durations and
sampling rates, making long video processing feasible in practice.Summary
AI-Generated Summary