EarlyTom: Compressão Antecipada de Tokens Completa a Compreensão Rápida de Vídeos

Resumo

Modelos de linguagem de grande escala para vídeo (Video-LLMs) demonstraram capacidades robustas em tarefas de compreensão de vídeo. No entanto, sua implementação prática ainda é prejudicada pela ineficiência introduzida pelo processamento de uma quantidade massiva de tokens visuais. Embora abordagens recentes atinjam taxas de retenção de tokens extremamente baixas, mantendo precisão comparável às linhas de base com tokens completos, a maioria delas realiza compressão apenas nos estágios finais do pré-preenchimento, deixando a eficiência do codificador visual sem otimização. Neste artigo, primeiramente mostramos que a codificação visual contribui com uma grande parcela do tempo até o primeiro token (TTFT). Portanto, em vez de comprimir tokens visuais apenas após o codificador visual, realizar a compressão dentro do próprio codificador ainda deixa espaço substancial para exploração. Com base nessa percepção, propomos o EarlyTom, uma estrutura de compressão de tokens sem treinamento que realiza compressão precoce de tokens visuais dentro do codificador visual, permitindo uma redução significativamente maior do TTFT e maior taxa de transferência. Além disso, introduzimos uma estratégia de seleção de tokens espaciais desacoplada que melhora a eficácia geral da compressão. O EarlyTom reduz o TTFT em até 2,65 vezes e os FLOPs em até 61% em uma única GPU NVIDIA A100 para o modelo LLaVA-OneVision-7B, mantendo precisão comparável à linha de base com tokens completos. Essas melhorias aumentam substancialmente a praticidade da implantação de Video-LLMs em cenários de produção do mundo real.

English

Video large language models (Video-LLMs) have demonstrated strong capabilities in video understanding tasks. However, their practical deployment is still hindered by the inefficiency introduced by processing massive amounts of visual tokens. Although recent approaches achieve extremely low token retention ratios while maintaining accuracy comparable to full-token baselines, most of them perform compression only at the late stage of prefilling, leaving the efficiency of the vision encoder unoptimized. In this paper, we first show that vision encoding contributes a large portion to the time-to-first-token (TTFT). Therefore, instead of compressing visual tokens only after the vision encoder, performing compression inside the encoder still leaves substantial room for exploration. Based on this insight, we propose EarlyTom, a training-free token compression framework that performs early-stage visual token compression inside the vision encoder, enabling significantly better TTFT reduction and higher throughput. In addition, we introduce a decoupled spatial token selection strategy that improves the overall compression effectiveness. EarlyTom reduces TTFT by up to 2.65x and FLOPs by up to 61% on a single NVIDIA A100 GPU for the LLaVA-OneVision-7B model, while maintaining accuracy comparable to the full-token baseline. These improvements substantially enhance the practicality of deploying Video-LLMs in real-world production scenarios.