AgilePruner : Étude empirique de l'attention et de la diversité pour l'élagage adaptatif des tokens visuels dans les grands modèles vision-langage

Résumé

Les grands modèles de vision et langage (LVLM) ont adopté des stratégies d'élagage de tokens visuels pour atténuer la charge computationnelle substantielle induite par les longues séquences de tokens visuels. Bien que les travaux antérieurs se concentrent principalement sur des méthodes d'élagage basées soit sur l'attention soit sur la diversité, une analyse approfondie des caractéristiques et limitations de ces approches reste largement inexplorée. Dans ce travail, nous menons une analyse empirique approfondie en utilisant le rang effectif (erank) comme mesure de la diversité des caractéristiques et l'entropie des scores d'attention pour étudier les mécanismes de traitement des tokens visuels et analyser les forces et faiblesses de chaque approche. Notre analyse révèle deux insights : (1) Notre analyse quantitative basée sur l'erank montre que de nombreuses méthodes d'élagage axées sur la diversité préservent substantiellement moins de diversité caractéristique que prévu ; de plus, l'analyse utilisant le jeu de données CHAIR révèle que la diversité qu'elles conservent est étroitement liée à une fréquence accrue d'hallucinations par rapport à l'élagage basé sur l'attention. (2) Nous observons en outre que les approches basées sur l'attention sont plus efficaces sur les images simples où les preuves visuelles sont concentrées, tandis que les méthodes basées sur la diversité gèrent mieux les images complexes avec des caractéristiques distribuées. En nous appuyant sur ces insights empiriques, nous montrons qu'incorporer des ajustements conscients de l'image dans les stratégies d'élagage hybride existantes améliore constamment leurs performances. Nous fournissons également une instanciation minimale de nos résultats empiriques grâce à un mécanisme d'élagage adaptatif simple, qui atteint des performances solides et fiables sur les benchmarks standards ainsi que sur les évaluations spécifiques aux hallucinations. Notre page projet est disponible à l'adresse https://cvsp-lab.github.io/AgilePruner.

English

Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.

AgilePruner : Étude empirique de l'attention et de la diversité pour l'élagage adaptatif des tokens visuels dans les grands modèles vision-langage

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Résumé

Support