EarlyTom: La Compresión Temprana de Tokens Completa la Comprensión Rápida de Videos

Resumen

Los modelos de lenguaje grandes de video (Video-LLM) han demostrado capacidades sólidas en tareas de comprensión de video. Sin embargo, su implementación práctica aún se ve obstaculizada por la ineficiencia que introduce el procesamiento de grandes cantidades de tokens visuales. Aunque enfoques recientes logran tasas de retención de tokens extremadamente bajas manteniendo una precisión comparable a las líneas base de tokens completos, la mayoría de ellos realizan la compresión solo en la etapa tardía del prellenado, dejando sin optimizar la eficiencia del codificador visual. En este artículo, primero mostramos que la codificación visual contribuye en gran medida al tiempo hasta el primer token (TTFT). Por lo tanto, en lugar de comprimir los tokens visuales solo después del codificador visual, realizar la compresión dentro del codificador aún deja un margen considerable para explorar. Partiendo de esta idea, proponemos EarlyTom, un marco de compresión de tokens sin entrenamiento que realiza la compresión temprana de tokens visuales dentro del codificador visual, lo que permite una reducción significativamente mayor del TTFT y un mayor rendimiento. Además, introducimos una estrategia desacoplada de selección de tokens espaciales que mejora la efectividad general de la compresión. EarlyTom reduce el TTFT en hasta 2.65 veces y los FLOPs en hasta un 61% en una sola GPU NVIDIA A100 para el modelo LLaVA-OneVision-7B, manteniendo una precisión comparable a la línea base de tokens completos. Estas mejoras aumentan sustancialmente la viabilidad de implementar los Video-LLM en escenarios de producción del mundo real.

English

Video large language models (Video-LLMs) have demonstrated strong capabilities in video understanding tasks. However, their practical deployment is still hindered by the inefficiency introduced by processing massive amounts of visual tokens. Although recent approaches achieve extremely low token retention ratios while maintaining accuracy comparable to full-token baselines, most of them perform compression only at the late stage of prefilling, leaving the efficiency of the vision encoder unoptimized. In this paper, we first show that vision encoding contributes a large portion to the time-to-first-token (TTFT). Therefore, instead of compressing visual tokens only after the vision encoder, performing compression inside the encoder still leaves substantial room for exploration. Based on this insight, we propose EarlyTom, a training-free token compression framework that performs early-stage visual token compression inside the vision encoder, enabling significantly better TTFT reduction and higher throughput. In addition, we introduce a decoupled spatial token selection strategy that improves the overall compression effectiveness. EarlyTom reduces TTFT by up to 2.65x and FLOPs by up to 61% on a single NVIDIA A100 GPU for the LLaVA-OneVision-7B model, while maintaining accuracy comparable to the full-token baseline. These improvements substantially enhance the practicality of deploying Video-LLMs in real-world production scenarios.