Aceleración de Modelos de Lenguaje a Gran Escala para Video en Streaming mediante Compresión Jerárquica de Tokens
Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
November 30, 2025
Autores: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes para Video en Streaming (VideoLLMs) han demostrado un rendimiento impresionante en diversas tareas de comprensión de vídeo, pero se enfrentan a desafíos significativos para su implementación en tiempo real debido al alto coste computacional de procesar tokens visuales densos procedentes de flujos de vídeo continuos. En escenarios de vídeo en streaming, el principal cuello de botella reside en la etapa de codificación del Transformer de Visión (ViT), donde el procesamiento redundante de fotogramas temporalmente similares conduce a ineficiencias. Además, las secuencias de tokens infladas durante la pre-limpieza del LLM exacerban aún más la latencia y la sobrecarga de memoria. Para abordar estos desafíos, proponemos la Compresión de Tokens en Streaming (STC), un marco jerárquico plug-and-play que se integra perfectamente en los VideoLLMs de streaming existentes, optimizando tanto la etapa de codificación ViT como la de pre-limpieza del LLM para acelerar el procesamiento. STC introduce dos aceleradores a nivel de token: STC-Cacher, que reduce la sobrecarga de codificación ViT almacenando en caché y reutilizando características de fotogramas temporalmente similares, y STC-Pruner, que comprime la secuencia de tokens visuales antes de que entre en el LLM, preservando solo los tokens más destacados en función de su relevancia espacial y temporal. Experimentos exhaustivos en cuatro VideoLLMs de streaming de referencia a lo largo de cinco benchmarks demuestran que STC supera a otros métodos de compresión. Cabe destacar que STC retiene hasta el 99% de la precisión en el marco ReKV mientras reduce la latencia de codificación ViT y la latencia de pre-limpieza del LLM en un 24,5% y un 45,3%, respectivamente.
English
Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.