ChatPaper.aiChatPaper

QuickVideo: システムアルゴリズム協調設計によるリアルタイム長尺動画理解

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

May 22, 2025
著者: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI

要旨

長時間動画の理解は、ビデオ監視、会議の要約、教育講義の分析、スポーツ放送などの実世界のアプリケーションにおいて重要な能力として浮上しています。しかし、VideoLLMにとっては依然として計算上の障壁が存在し、主に2つのボトルネックが原因です:1) 逐次的なビデオデコード、つまり生のビットストリームをRGBフレームに変換するプロセスが、1時間の動画入力に対して最大1分かかること、2) LLM推論のための数百万トークンに及ぶ高コストなプリフィリングが、高いレイテンシとメモリ使用量を引き起こすことです。これらの課題に対処するため、我々はQuickVideoを提案します。これは、リアルタイムの下流アプリケーションをサポートするために長時間動画の理解を大幅に加速するシステム・アルゴリズム共同設計です。QuickVideoは3つの主要な革新を包含しています:QuickDecoder、キーフレームに基づいて動画を分割し並列処理することで2〜3倍の高速化を実現するCPUベースの並列化ビデオデコーダ;QuickPrefill、KVキャッシュのプルーニングを使用してより少ないGPUメモリでより多くのフレームをサポートするメモリ効率の良いプリフィリング方法;そして、CPUのビデオデコードとGPUの推論をオーバーラップさせるスキームです。これらのコンポーネントを組み合わせることで、長時間の動画入力に対する推論時間を1分短縮し、限られたハードウェア上でもスケーラブルで高品質な動画理解を可能にします。実験により、QuickVideoが時間長とサンプリングレートにわたって汎化し、長時間動画の処理を実用的に実現することが示されています。
English
Long-video understanding has emerged as a crucial capability in real-world applications such as video surveillance, meeting summarization, educational lecture analysis, and sports broadcasting. However, it remains computationally prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential video decoding, the process of converting the raw bit stream to RGB frames can take up to a minute for hour-long video inputs, and 2) costly prefilling of up to several million tokens for LLM inference, resulting in high latency and memory use. To address these challenges, we propose QuickVideo, a system-algorithm co-design that substantially accelerates long-video understanding to support real-time downstream applications. It comprises three key innovations: QuickDecoder, a parallelized CPU-based video decoder that achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals processed concurrently; QuickPrefill, a memory-efficient prefilling method using KV-cache pruning to support more frames with less GPU memory; and an overlapping scheme that overlaps CPU video decoding with GPU inference. Together, these components infernece time reduce by a minute on long video inputs, enabling scalable, high-quality video understanding even on limited hardware. Experiments show that QuickVideo generalizes across durations and sampling rates, making long video processing feasible in practice.

Summary

AI-Generated Summary

PDF312May 23, 2025