Accélération des grands modèles de langage pour la vidéo en streaming via une compression hiérarchique des jetons
Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
November 30, 2025
papers.authors: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang
cs.AI
papers.abstract
Les modèles de langage de grande taille pour vidéos en flux continu (VideoLLMs) démontrent des performances impressionnantes sur diverses tâches de compréhension vidéo, mais leur déploiement en temps réel est entravé par le coût computationnel élevé du traitement des tokens visuels denses provenant de flux vidéo continus. Dans les scénarios de vidéo en streaming, le goulot d'étranglement principal se situe au niveau de l'étape d'encodage par Vision Transformer (ViT), où le traitement redondant de frames temporellement similaires entraîne une inefficacité. De plus, les séquences de tokens gonflées lors du pré-remplissage du LLM exacerbent davantage la latence et la surcharge mémoire. Pour relever ces défis, nous proposons Streaming Token Compression (STC), un framework hiérarchique plug-and-play qui s'intègre de manière transparente aux VideoLLMs en flux continu existants, optimisant à la fois les étapes d'encodage ViT et de pré-remplissage LLM pour accélérer le traitement. STC introduit deux accélérateurs au niveau des tokens : STC-Cacher, qui réduit la surcharge d'encodage ViT en mettant en cache et en réutilisant les caractéristiques des frames temporellement similaires, et STC-Pruner, qui compresse la séquence de tokens visuels avant qu'elle n'entre dans le LLM, ne conservant que les tokens les plus saillants basés sur la pertinence spatiale et temporelle. Des expériences approfondies sur quatre VideoLLMs en streaming de référence à travers cinq benchmarks démontrent que STC surpasse les autres méthodes de compression. Notably, STC conserve jusqu'à 99 % de la précision sur le framework ReKV tout en réduisant la latence d'encodage ViT et la latence de pré-remplissage LLM de 24,5 % et 45,3 %.
English
Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.