Réduction de jetons par optimisation des contextes locaux et globaux pour des modèles de langage de grande taille efficaces appliqués à la vidéo

Résumé

Les modèles de langage de grande taille pour la vidéo (VLLMs) démontrent une forte compréhension vidéo mais souffrent d'inefficacité due à la redondance des tokens visuels. Les méthodes d'élagage existantes ciblent principalement la redondance spatiale intra-image ou élaguent au sein du LLM avec une surcharge de couches superficielles, produisant une réduction spatiotemporelle sous-optimale et sous-utilisant la compressibilité des contextes longs. Elles écartent souvent des contextes subtils mais informatifs provenant de tokens fusionnés ou élagués. Dans cet article, nous proposons une nouvelle perspective qui élabore des Ancres de tokens intra-image et inter-images pour agréger de manière exhaustive les contextes informatifs via un Transport Optimal local-global (AOT). Concrètement, nous établissons d'abord des ancres de tokens conscientes du local et du global dans chaque image sous le guidage de l'attention, puis le transport optimal agrège les contextes informatiques des tokens élagués, construisant des ancres de tokens intra-image. Ensuite, sur la base de clips d'images temporels, la première image de chaque clip est considérée comme une ancre d'image clé pour assembler des informations similaires provenant d'images consécutives via le transport optimal, tout en conservant les tokens distincts pour représenter la dynamique temporelle, conduisant à une réduction efficace des tokens sans entraînement. Des évaluations approfondies montrent que notre méthode AOT obtient des performances compétitives sur divers benchmarks de vidéos courtes et longues avec les principaux VLLMs, atteignant une efficacité computationnelle substantielle tout en préservant la fidélité temporelle et visuelle. Page du projet : https://tyroneli.github.io/AOT{AOT}.

English

Video Large Language Models (VLLMs) demonstrate strong video understanding but suffer from inefficiency due to redundant visual tokens. Existing pruning primary targets intra-frame spatial redundancy or prunes inside the LLM with shallow-layer overhead, yielding suboptimal spatiotemporal reduction and underutilizing long-context compressibility. All of them often discard subtle yet informative context from merged or pruned tokens. In this paper, we propose a new perspective that elaborates token Anchors within intra-frame and inter-frame to comprehensively aggregate the informative contexts via local-global Optimal Transport (AOT). Specifically, we first establish local- and global-aware token anchors within each frame under the attention guidance, which then optimal transport aggregates the informative contexts from pruned tokens, constructing intra-frame token anchors. Then, building on the temporal frame clips, the first frame within each clip will be considered as the keyframe anchors to ensemble similar information from consecutive frames through optimal transport, while keeping distinct tokens to represent temporal dynamics, leading to efficient token reduction in a training-free manner. Extensive evaluations show that our proposed AOT obtains competitive performances across various short- and long-video benchmarks on leading video LLMs, obtaining substantial computational efficiency while preserving temporal and visual fidelity. Project webpage: https://tyroneli.github.io/AOT{AOT}.

Réduction de jetons par optimisation des contextes locaux et globaux pour des modèles de langage de grande taille efficaces appliqués à la vidéo

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Résumé

Support