Versnelling van Streaming Video Large Language Models via Hiërarchische Tokencompressie
Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
November 30, 2025
Auteurs: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang
cs.AI
Samenvatting
Streaming Video Large Language Models (VideoLLM's) leveren indrukwekkende prestaties op diverse videobegriptaken, maar kampen met aanzienlijke uitdagingen bij realtime-implementatie vanwege de hoge rekenkosten van het verwerken van dichte visuele tokens uit continue videostreams. In streamingscenario's vormt de Vision Transformer (ViT)-coderingsfase de voornaamste bottleneck, waar redundante verwerking van temporeel gelijkaardige frames tot inefficiëntie leidt. Daarnaast verergeren opgeblazen tokensequenties tijdens LLM-pre-filling de latentie en geheugenoverhead verder. Om deze uitdagingen aan te pakken, stellen wij Streaming Token Compression (STC) voor, een plug-and-play hiërarchisch framework dat naadloos integreert in bestaande streaming VideoLLM's en zowel de ViT-coderings- als LLM-pre-fillingfasen optimaliseert om de verwerking te versnellen. STC introduceert twee tokenversnellers: STC-Cacher, die de ViT-encoderingsoverhead vermindert door features van temporeel gelijkaardige frames te cachen en hergebruiken, en STC-Pruner, die de visuele tokensequentie comprimeert voordat deze de LLM binnenkomt door alleen de meest salient tokens te behouden op basis van zowel ruimtelijke als temporele relevantie. Uitgebreide experimenten met vier baseline streaming VideoLLM's op vijf benchmarks tonen aan dat STC andere compressiemethoden overtreft. Opmerkelijk is dat STC tot 99% van de nauwkeurigheid behoudt op het ReKV-framework, terwijl het de ViT-coderingslatentie en LLM-pre-filling-latentie met respectievelijk 24,5% en 45,3% reduceert.
English
Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.