Beschleunigung von Large Language Models für Streaming-Video durch hierarchische Token-Kompression

papers.abstract

Streaming Video Large Language Models (VideoLLMs) haben beeindruckende Leistungen bei verschiedenen Videoanalyseaufgaben gezeigt, stehen jedoch aufgrund der hohen Rechenkosten bei der Verarbeitung dichter visueller Tokens aus kontinuierlichen Videostreams vor erheblichen Herausforderungen bei der Echtzeitbereitstellung. In Streaming-Video-Szenarien liegt der primäre Engpass in der Encodierungsphase des Vision Transformers (ViT), wo redundante Verarbeitung zeitlich ähnlicher Frames zu Ineffizienz führt. Zusätzlich verschärfen aufgeblähte Token-Sequenzen während des LLM-Pre-Fillings die Latenz und den Speichermehraufwand weiter. Um diese Herausforderungen zu bewältigen, schlagen wir Streaming Token Compression (STC) vor, ein plug-and-play-fähiges hierarchisches Framework, das nahtlos in bestehende Streaming-VideoLLMs integriert wird und sowohl die ViT-Encodierungs- als auch die LLM-Pre-Filling-Phasen zur Beschleunigung der Verarbeitung optimiert. STC führt zwei Token-basierte Beschleuniger ein: STC-Cacher, der den ViT-Encodierungsaufwand durch Zwischenspeichern und Wiederverwenden von Merkmalen zeitlich ähnlicher Frames reduziert, und STC-Pruner, der die visuelle Token-Sequenz komprimiert, bevor sie den LLM erreicht, und dabei nur die salientesten Tokens basierend auf räumlicher und zeitlicher Relevanz beibehält. Umfangreiche Experimente mit vier Baseline-Streaming-VideoLLMs über fünf Benchmarks hinweg zeigen, dass STC andere Komprimierungsmethoden übertrifft. Bemerkenswerterweise behält STC bis zu 99 % der Genauigkeit im ReKV-Framework bei, während es die ViT-Encodierungslatenz und die LLM-Pre-Filling-Latenz um 24,5 % bzw. 45,3 % reduziert.

English

Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.

Beschleunigung von Large Language Models für Streaming-Video durch hierarchische Token-Kompression

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

papers.abstract

Support