ChatPaper.aiChatPaper

QuickVideo: Real-Time Lange Video-interpretatie met Systeem-Algoritme Co-ontwerp

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

May 22, 2025
Auteurs: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI

Samenvatting

Het begrijpen van lange video's is een cruciale vaardigheid geworden in real-world toepassingen zoals videobewaking, vergaderingsoverzichten, analyse van educatieve lezingen en sportuitzendingen. Het blijft echter computationeel onhaalbaar voor VideoLLM's, voornamelijk vanwege twee knelpunten: 1) sequentiële videodecodering, het proces van het omzetten van de ruwe bitstream naar RGB-frames kan tot een minuut duren voor uur-lange video-invoer, en 2) kostbaar prefilling van tot enkele miljoenen tokens voor LLM-inferentie, wat resulteert in hoge latentie en geheugengebruik. Om deze uitdagingen aan te pakken, stellen we QuickVideo voor, een systeem-algoritme co-design dat het begrijpen van lange video's aanzienlijk versnelt om real-time downstream toepassingen te ondersteunen. Het bestaat uit drie belangrijke innovaties: QuickDecoder, een parallelle CPU-gebaseerde videodecoder die een 2-3 keer snellere verwerking bereikt door video's op te splitsen in keyframe-uitgelijnde intervallen die gelijktijdig worden verwerkt; QuickPrefill, een geheugenefficiënte prefilling-methode die KV-cache pruning gebruikt om meer frames te ondersteunen met minder GPU-geheugen; en een overlappingsschema dat CPU-videodecodering overlapt met GPU-inferentie. Samen verminderen deze componenten de inferentietijd met een minuut op lange video-invoer, waardoor schaalbare, hoogwaardige videobegrip mogelijk wordt, zelfs op beperkte hardware. Experimenten tonen aan dat QuickVideo generaliseert over duur en bemonsteringsfrequenties, waardoor het verwerken van lange video's in de praktijk haalbaar wordt.
English
Long-video understanding has emerged as a crucial capability in real-world applications such as video surveillance, meeting summarization, educational lecture analysis, and sports broadcasting. However, it remains computationally prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential video decoding, the process of converting the raw bit stream to RGB frames can take up to a minute for hour-long video inputs, and 2) costly prefilling of up to several million tokens for LLM inference, resulting in high latency and memory use. To address these challenges, we propose QuickVideo, a system-algorithm co-design that substantially accelerates long-video understanding to support real-time downstream applications. It comprises three key innovations: QuickDecoder, a parallelized CPU-based video decoder that achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals processed concurrently; QuickPrefill, a memory-efficient prefilling method using KV-cache pruning to support more frames with less GPU memory; and an overlapping scheme that overlaps CPU video decoding with GPU inference. Together, these components infernece time reduce by a minute on long video inputs, enabling scalable, high-quality video understanding even on limited hardware. Experiments show that QuickVideo generalizes across durations and sampling rates, making long video processing feasible in practice.
PDF413May 23, 2025