階層的トークン圧縮によるストリーミング動画大規模言語モデルの高速化
Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
November 30, 2025
著者: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang
cs.AI
要旨
ストリーミング動画大規模言語モデル(VideoLLM)は、様々な動画理解タスクにおいて印象的な性能を示しているが、連続的な動画ストリームから得られる高密度な視覚トークンの処理に伴う高い計算コストにより、リアルタイム展開において重大な課題に直面している。ストリーミング動画シナリオでは、処理のボトルネックは主にVision Transformer(ViT)のエンコーディング段階にあり、時間的に類似したフレームの冗長な処理が非効率性を引き起こしている。さらに、LLMのプリフィリング段階における膨張したトークン列は、レイテンシとメモリオーバーヘッドをさらに悪化させる。これらの課題に対処するため、我々は既存のストリーミングVideoLLMにシームレスに統合可能なプラグアンドプレイ型の階層的フレームワークであるStreaming Token Compression(STC)を提案する。これはViTエンコーディング段階とLLMプリフィリング段階の両方を最適化し、処理を高速化する。STCは2つのトークンレベル加速器を導入する:時間的に類似したフレームからの特徴量をキャッシュして再利用することでViTエンコーディングのオーバーヘッドを削減するSTC-Cacherと、LLMに入力される前の視覚トークン列を圧縮し、空間的・時間的関連性に基づいて最も顕著なトークンのみを保持するSTC-Prunerである。5つのベンチマークを用いた4つのベースラインストリーミングVideoLLMにおける広範な実験により、STCが他の圧縮手法を上回る性能を示すことを実証した。特に、STCはReKVフレームワークにおいて精度を99%以上維持しつつ、ViTエンコーディングレイテンシとLLMプリフィリングレイテンシをそれぞれ24.5%、45.3%削減した。
English
Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.