Accelerazione dei Modelli Linguistici di Grande Dimensione per Video in Streaming tramite Compressione Gerarchica dei Token

Abstract

I modelli linguistici di grandi dimensioni per video in streaming (VideoLLM) hanno dimostrato prestazioni impressionanti in varie attività di comprensione video, ma affrontano sfide significative nella distribuzione in tempo reale a causa dell'elevato costo computazionale dell'elaborazione di token visivi densi da flussi video continui. Negli scenari di video in streaming, il collo di bottiglia principale risiede nella fase di codifica del Vision Transformer (ViT), dove l'elaborazione ridondante di frame temporalmente simili porta a inefficienze. Inoltre, le sequenze di token gonfiate durante il pre-riempimento del LLM aggravano ulteriormente la latenza e l'overhead di memoria. Per affrontare queste sfide, proponiamo Streaming Token Compression (STC), un framework gerarchico plug-and-play che si integra perfettamente negli esistenti VideoLLM in streaming, ottimizzando sia la fase di codifica ViT che quella di pre-riempimento del LLM per accelerare l'elaborazione. STC introduce due acceleratori a livello di token: STC-Cacher, che riduce l'overhead della codifica ViT memorizzando nella cache e riutilizzando le feature di frame temporalmente simili, e STC-Pruner, che comprime la sequenza di token visivi prima che essa entri nel LLM, preservando solo i token più salienti in base alla rilevanza sia spaziale che temporale. Esperimenti estesi su quattro VideoLLM in streaming di base attraverso cinque benchmark dimostrano che STC supera altri metodi di compressione. In particolare, STC mantiene fino al 99% dell'accuratezza sul framework ReKV riducendo contemporaneamente la latenza di codifica ViT e la latenza di pre-riempimento del LLM rispettivamente del 24,5% e del 45,3%.

English

Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.

Accelerazione dei Modelli Linguistici di Grande Dimensione per Video in Streaming tramite Compressione Gerarchica dei Token

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

Abstract

Support