ChatPaper.aiChatPaper

QuickVideo: 시스템 알고리즘 공동 설계를 통한 실시간 장영상 이해

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

May 22, 2025
저자: Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI

초록

장시간 비디오 이해는 비디오 감시, 회의 요약, 교육 강의 분석, 스포츠 방송과 같은 실제 애플리케이션에서 중요한 능력으로 부상하고 있습니다. 그러나 VideoLLM(비디오 언어 모델)에게는 여전히 계산적으로 부담스러운 작업으로 남아있는데, 이는 주로 두 가지 병목 현상 때문입니다: 1) 순차적 비디오 디코딩, 즉 원시 비트 스트림을 RGB 프레임으로 변환하는 과정이 시간이 오래 걸리는 문제와 2) LLM(대형 언어 모델) 추론을 위한 수백만 개의 토큰을 미리 채우는 비용이 높아서 발생하는 높은 지연 시간과 메모리 사용 문제입니다. 이러한 문제를 해결하기 위해, 우리는 QuickVideo를 제안합니다. QuickVideo는 시스템-알고리즘 공동 설계로, 실시간 다운스트림 애플리케이션을 지원하기 위해 장시간 비디오 이해를 크게 가속화합니다. 이는 세 가지 주요 혁신으로 구성됩니다: QuickDecoder는 병렬화된 CPU 기반 비디오 디코더로, 비디오를 키프레임 정렬된 구간으로 분할하여 동시에 처리함으로써 2-3배의 속도 향상을 달성합니다; QuickPrefill은 KV 캐시 프루닝을 사용하여 GPU 메모리를 절약하면서 더 많은 프레임을 지원하는 메모리 효율적인 미리 채우기 방법입니다; 그리고 CPU 비디오 디코딩과 GPU 추론을 중첩시키는 오버래핑 기법입니다. 이러한 구성 요소들이 함께 작동하여 장시간 비디오 입력에 대한 추론 시간을 1분 단축시켜, 제한된 하드웨어에서도 확장 가능하고 고품질의 비디오 이해를 가능하게 합니다. 실험 결과, QuickVideo는 다양한 지속 시간과 샘플링 속도에 걸쳐 일반화되어, 장시간 비디오 처리를 실질적으로 가능하게 만드는 것을 보여줍니다.
English
Long-video understanding has emerged as a crucial capability in real-world applications such as video surveillance, meeting summarization, educational lecture analysis, and sports broadcasting. However, it remains computationally prohibitive for VideoLLMs, primarily due to two bottlenecks: 1) sequential video decoding, the process of converting the raw bit stream to RGB frames can take up to a minute for hour-long video inputs, and 2) costly prefilling of up to several million tokens for LLM inference, resulting in high latency and memory use. To address these challenges, we propose QuickVideo, a system-algorithm co-design that substantially accelerates long-video understanding to support real-time downstream applications. It comprises three key innovations: QuickDecoder, a parallelized CPU-based video decoder that achieves 2-3 times speedup by splitting videos into keyframe-aligned intervals processed concurrently; QuickPrefill, a memory-efficient prefilling method using KV-cache pruning to support more frames with less GPU memory; and an overlapping scheme that overlaps CPU video decoding with GPU inference. Together, these components infernece time reduce by a minute on long video inputs, enabling scalable, high-quality video understanding even on limited hardware. Experiments show that QuickVideo generalizes across durations and sampling rates, making long video processing feasible in practice.

Summary

AI-Generated Summary

PDF312May 23, 2025