Ускорение потоковых видео-больших языковых моделей с помощью иерархического сжатия токенов
Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
November 30, 2025
Авторы: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang
cs.AI
Аннотация
Потоковые языковые модели для видео (VideoLLMs) демонстрируют впечатляющие результаты в различных задачах понимания видео, однако сталкиваются со значительными трудностями при развертывании в реальном времени из-за высоких вычислительных затрат на обработку плотных визуальных токенов из непрерывных видеопотоков. В сценариях потокового видео основным узким местом является этап кодирования Vision Transformer (ViT), где избыточная обработка временно схожих кадров приводит к неэффективности. Кроме того, раздутые последовательности токенов на этапе предварительного заполнения (pre-filling) LLM дополнительно усугубляют задержки и нагрузку на память. Для решения этих проблем мы предлагаем Streaming Token Compression (STC) — модульную иерархическую структуру, которая бесшовно интегрируется в существующие потоковые VideoLLMs, оптимизируя этапы кодирования ViT и предварительного заполнения LLM для ускорения обработки. STC вводит два акселератора на уровне токенов: STC-Cacher, который снижает нагрузку кодирования ViT за счет кэширования и повторного использования признаков из временно схожих кадров, и STC-Pruner, который сжимает последовательность визуальных токенов перед ее поступлением в LLM, сохраняя только наиболее значимые токены на основе пространственной и временной релевантности. Многочисленные эксперименты на четырех базовых потоковых VideoLLMs в рамках пяти тестовых наборов данных показывают, что STC превосходит другие методы сжатия. Примечательно, что STC сохраняет до 99% точности в рамках фреймворка ReKV, одновременно сокращая задержку кодирования ViT и задержку предварительного заполнения LLM на 24,5% и 45,3% соответственно.
English
Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.