Aceleração de Modelos de Linguagem de Grande Porte para Streaming de Vídeo via Compressão Hierárquica de Tokens

Resumo

Os Modelos de Linguagem de Grande Porte para Vídeo em Streaming (VideoLLMs) demonstraram desempenho impressionante em várias tarefas de compreensão de vídeo, mas enfrentam desafios significativos na implantação em tempo real devido ao alto custo computacional de processar *tokens* visuais densos de fluxos de vídeo contínuos. Em cenários de vídeo em streaming, o principal gargalo está no estágio de codificação do Vision Transformer (ViT), onde o processamento redundante de frames temporalmente semelhantes leva à ineficiência. Adicionalmente, sequências de *tokens* inflacionadas durante o pré-preenchimento do LLM exacerbam ainda mais a latência e a sobrecarga de memória. Para enfrentar esses desafios, propomos a Compactação de *Tokens* em Streaming (STC), uma estrutura hierárquica *plug-and-play* que se integra perfeitamente aos VideoLLMs de streaming existentes, otimizando tanto o estágio de codificação do ViT quanto o de pré-preenchimento do LLM para acelerar o processamento. A STC introduz dois aceleradores em nível de *token*: o STC-Cacher, que reduz a sobrecarga de codificação do ViT armazenando em cache e reutilizando características de frames temporalmente semelhantes, e o STC-Pruner, que comprime a sequência de *tokens* visuais antes dela entrar no LLM, preservando apenas os *tokens* mais salientes com base na relevância espacial e temporal. Experimentos extensos em quatro VideoLLMs de streaming de linha de base, em cinco *benchmarks*, demonstram que a STC supera outros métodos de compressão. Notavelmente, a STC retém até 99% da precisão na estrutura ReKV, enquanto reduz a latência de codificação do ViT e a latência de pré-preenchimento do LLM em 24,5% e 45,3%, respectivamente.

English

Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose Streaming Token Compression (STC), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: STC-Cacher, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and STC-Pruner, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to 99\% of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by 24.5\% and 45.3\%.

Aceleração de Modelos de Linguagem de Grande Porte para Streaming de Vídeo via Compressão Hierárquica de Tokens

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

Resumo

Support