EarlyTom : la compression précoce des tokens parachève la compréhension rapide des vidéos.

Résumé

Les modèles de langage vidéo de grande taille (Video-LLMs) ont démontré des capacités remarquables dans les tâches de compréhension vidéo. Cependant, leur déploiement pratique reste entravé par l'inefficacité induite par le traitement d'un nombre massif de jetons visuels. Bien que des approches récentes parviennent à des taux de rétention de jetons extrêmement faibles tout en maintenant une précision comparable aux références utilisant tous les jetons, la plupart d'entre elles effectuent la compression uniquement à un stade tardif du préremplissage, laissant l'efficacité de l'encodeur visuel inoptimisée. Dans cet article, nous montrons d'abord que l'encodage visuel contribue pour une large part au temps jusqu'au premier jeton (TTFT). Par conséquent, plutôt que de compresser les jetons visuels uniquement après l'encodeur visuel, effectuer une compression à l'intérieur même de l'encodeur laisse encore une marge d'exploration substantielle. Forts de cette observation, nous proposons EarlyTom, un cadre de compression de jetons sans entraînement qui réalise une compression précoce des jetons visuels au sein de l'encodeur visuel, permettant ainsi une réduction nettement plus marquée du TTFT et un débit accru. De plus, nous introduisons une stratégie de sélection découplée de jetons spatiaux qui améliore l'efficacité globale de la compression. EarlyTom réduit le TTFT jusqu'à 2,65 fois et les FLOPs jusqu'à 61 % sur un seul GPU NVIDIA A100 pour le modèle LLaVA-OneVision-7B, tout en maintenant une précision comparable à celle de la référence utilisant tous les jetons. Ces améliorations renforcent considérablement l'aspect pratique du déploiement des Video-LLMs dans des scénarios de production réels.

English

Video large language models (Video-LLMs) have demonstrated strong capabilities in video understanding tasks. However, their practical deployment is still hindered by the inefficiency introduced by processing massive amounts of visual tokens. Although recent approaches achieve extremely low token retention ratios while maintaining accuracy comparable to full-token baselines, most of them perform compression only at the late stage of prefilling, leaving the efficiency of the vision encoder unoptimized. In this paper, we first show that vision encoding contributes a large portion to the time-to-first-token (TTFT). Therefore, instead of compressing visual tokens only after the vision encoder, performing compression inside the encoder still leaves substantial room for exploration. Based on this insight, we propose EarlyTom, a training-free token compression framework that performs early-stage visual token compression inside the vision encoder, enabling significantly better TTFT reduction and higher throughput. In addition, we introduce a decoupled spatial token selection strategy that improves the overall compression effectiveness. EarlyTom reduces TTFT by up to 2.65x and FLOPs by up to 61% on a single NVIDIA A100 GPU for the LLaVA-OneVision-7B model, while maintaining accuracy comparable to the full-token baseline. These improvements substantially enhance the practicality of deploying Video-LLMs in real-world production scenarios.