Évaluation Unifiée des Tokens Spatio-Temporels pour des VLMs Vidéo Efficaces

Résumé

L'élagage de tokens est essentiel pour améliorer l'efficacité computationnelle des modèles vision-langage (VLM), en particulier pour les tâches vidéo où la redondance temporelle est omniprésente. Les approches antérieures élaguent généralement les tokens soit (1) uniquement dans le transformeur de vision (ViT) pour des tâches de perception unimodale telles que la reconnaissance d'actions et la segmentation d'objets, sans adaptation aux tâches vision-langage en aval ; soit (2) uniquement dans le LLM tout en laissant la sortie du ViT intacte, nécessitant souvent des mécanismes complexes de sélection de tokens conditionnés par le texte. Dans cet article, nous présentons le *Spatio-Temporal Token Scoring* (STTS), un module simple et léger qui élagage les tokens visuels à la fois dans le ViT et le LLM sans conditionnement textuel ni fusion de tokens, et qui est entièrement compatible avec un apprentissage de bout en bout. En apprenant à noter temporellement via une perte auxiliaire et spatialement via les gradients du LLM en aval, aidé par notre algorithme de regroupement efficace, STTS élimine 50 % des tokens visuels dans l'ensemble de l'architecture, ce qui se traduit par une amélioration de 62 % de l'efficacité lors de l'entraînement et de l'inférence, avec seulement une baisse de 0,7 % des performances moyennes sur 13 tâches de question-réponse sur vidéos courtes et longues. Les gains d'efficacité augmentent avec un nombre d'images échantillonnées par vidéo plus élevé. L'application d'une mise à l'échelle au moment du test pour le QA sur vidéos longues permet en outre d'obtenir des gains de performance de 0,5 à 1 % par rapport à la ligne de base. Globalement, STTS représente une technique nouvelle, simple mais efficace pour un élagage unifié des tokens visuels à l'échelle de l'architecture.

English

Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.

Évaluation Unifiée des Tokens Spatio-Temporels pour des VLMs Vidéo Efficaces

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Résumé

Support