ChatPaper.aiChatPaper

스트리밍 비디오 대규모 언어 모델의 계층적 토큰 압축 기반 성능 가속화

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

November 30, 2025
저자: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang
cs.AI

초록

스트리밍 비디오 대규모 언어 모델(VideoLLMs)은 다양한 비디오 이해 작업에서 인상적인 성능을 보여주지만, 연속적인 비디오 스트림에서 발생하는 밀집된 시각적 토큰 처리의 높은 계산 비용으로 인해 실시간 배포에 상당한 어려움을 겪고 있습니다. 스트리밍 비디오 시나리오에서 주요 병목 현상은 Vision Transformer(ViT) 인코딩 단계에 있으며, 시간적으로 유사한 프레임을 중복 처리함으로써 비효율이 발생합니다. 또한 LLM 사전 채우기(pre-filling) 단계에서 팽창된 토큰 시퀀스는 대기 시간과 메모리 오버헤드를 더욱 악화시킵니다. 이러한 문제를 해결하기 위해 우리는 기존 스트리밍 VideoLLMs에 원활하게 통합되어 ViT 인코딩과 LLM 사전 채우기 단계를 모두 최적화하여 처리 속도를 높이는 플러그 앤 플레이(plug-and-play) 계층적 프레임워크인 STC(Streaming Token Compression)를 제안합니다. STC는 두 가지 토큰 수준 가속기를 도입합니다: 첫째, STC-Cacher는 시간적으로 유사한 프레임의 특징을 캐싱 및 재사용하여 ViT 인코딩 오버헤드를 줄이고, 둘째, STC-Pruner는 LLM에 입력되기 전에 시각적 토큰 시퀀스를 압축하여 공간적 및 시간적 관련성을 기준으로 가장 salient한 토큰만 보존합니다. 5개 벤치마크에서 4개의 기준 스트리밍 VideoLLMs에 대한 폭넓은 실험을 통해 STC가 다른 압축 방법들을 능가함을 입증했습니다. 특히 STC는 ReKV 프레임워크에서 최대 99%의 정확도를 유지하면서 ViT 인코딩 대기 시간과 LLM 사전 채우기 대기 시간을 각각 24.5%, 45.3% 줄였습니다.
English
Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.
PDF91December 3, 2025