ChatPaper.aiChatPaper

QuickVideo: Echtzeit-Verständnis langer Videos durch System-Algorithmus-Co-Design

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

May 22, 2025
Autoren: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI

Zusammenfassung

Das Verständnis von langen Videos hat sich als entscheidende Fähigkeit in realen Anwendungen wie Videoüberwachung, Besprechungszusammenfassung, Analyse von Bildungsvorträgen und Sportübertragungen herausgestellt. Es bleibt jedoch für VideoLLMs aufgrund von zwei Engpässen rechenintensiv: 1) Die sequenzielle Videodekodierung, also der Prozess der Umwandlung des Rohdatenstroms in RGB-Bilder, kann bei stundenlangen Videoeingaben bis zu einer Minute dauern, und 2) das kostspielige Vorausfüllen von bis zu mehreren Millionen Token für die LLM-Inferenz, was zu hoher Latenz und Speichernutzung führt. Um diese Herausforderungen zu bewältigen, schlagen wir QuickVideo vor, ein System-Algorithmus-Co-Design, das das Verständnis von langen Videos erheblich beschleunigt, um Echtzeitanwendungen zu unterstützen. Es besteht aus drei Schlüsselinnovationen: QuickDecoder, einem parallelisierten CPU-basierten Videodecoder, der durch die Aufteilung von Videos in keyframe-ausgerichtete Intervalle, die gleichzeitig verarbeitet werden, eine 2-3-fache Beschleunigung erreicht; QuickPrefill, einer speichereffizienten Vorausfüllmethode, die KV-Cache-Beschneidung verwendet, um mehr Bilder mit weniger GPU-Speicher zu unterstützen; und einem Überlappungsschema, das die CPU-Videodekodierung mit der GPU-Inferenz überlappt. Zusammen reduzieren diese Komponenten die Inferenzzeit bei langen Videoeingaben um eine Minute und ermöglichen so skalierbares, hochwertiges Videoverständnis auch auf begrenzter Hardware. Experimente zeigen, dass QuickVideo über verschiedene Dauer und Abtastraten hinweg generalisiert, was die Verarbeitung langer Videos in der Praxis machbar macht.
English
Long-video understanding has emerged as a crucial capability in real-world applications such as video surveillance, meeting summarization, educational lecture analysis, and sports broadcasting. However, it remains computationally prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential video decoding, the process of converting the raw bit stream to RGB frames can take up to a minute for hour-long video inputs, and 2) costly prefilling of up to several million tokens for LLM inference, resulting in high latency and memory use. To address these challenges, we propose QuickVideo, a system-algorithm co-design that substantially accelerates long-video understanding to support real-time downstream applications. It comprises three key innovations: QuickDecoder, a parallelized CPU-based video decoder that achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals processed concurrently; QuickPrefill, a memory-efficient prefilling method using KV-cache pruning to support more frames with less GPU memory; and an overlapping scheme that overlaps CPU video decoding with GPU inference. Together, these components infernece time reduce by a minute on long video inputs, enabling scalable, high-quality video understanding even on limited hardware. Experiments show that QuickVideo generalizes across durations and sampling rates, making long video processing feasible in practice.

Summary

AI-Generated Summary

PDF312May 23, 2025