AgilePruner: Een Empirische Studie naar Aandacht en Diversiteit voor Adaptieve Visuele Token-pruning in Grote Visueel-Taalmodellen

Samenvatting

Grote Vision-Language Modellen (LVLMs) hebben visuele token-reductiestrategieën aangenomen om de aanzienlijke rekenkosten te beperken die worden veroorzaakt door uitgebreide visuele tokenreeksen. Hoewel eerdere werken zich voornamelijk richten op op aandacht gebaseerde of op diversiteit gebaseerde reductiemethoden, blijft een diepgaande analyse van de kenmerken en beperkingen van deze benaderingen grotendeels onontgonnen. In dit werk voeren we een grondige empirische analyse uit met behulp van effectieve rang (erank) als maatstaf voor kenmerkdiversiteit en aandachtsscore-entropie om de verwerkingsmechanismen van visuele tokens te onderzoeken en de sterke en zwakke punten van elke benadering te analyseren. Onze analyse onthult twee inzichten: (1) Onze kwantitatieve analyse op basis van erank toont aan dat veel op diversiteit gerichte reductiemethoden aanzienlijk minder kenmerkdiversiteit behouden dan beoogd; bovendien onthult analyse met de CHAIR-dataset dat de diversiteit die ze wel behouden nauw verbonden is met een verhoogde hallucinatiefrequentie in vergelijking met op aandacht gebaseerde reductie. (2) We observeren verder dat op aandacht gebaseerde benaderingen effectiever zijn op eenvoudige afbeeldingen waar visueel bewijs geconcentreerd is, terwijl op diversiteit gebaseerde methoden complexe afbeeldingen met verspreide kenmerken beter verwerken. Voortbouwend op deze empirische inzichten tonen we aan dat het incorporeren van beeldbewuste aanpassingen in bestaande hybride reductiestrategieën hun prestaties consistent verbetert. We bieden ook een minimale instantiatie van onze empirische bevindingen door middel van een eenvoudig adaptief reductiemechanisme, dat sterke en betrouwbare prestaties bereikt op zowel standaardbenchmarks als hallucinatiespecifieke evaluaties. Onze projectpagina is beschikbaar op https://cvsp-lab.github.io/AgilePruner.

English

Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.

AgilePruner: Een Empirische Studie naar Aandacht en Diversiteit voor Adaptieve Visuele Token-pruning in Grote Visueel-Taalmodellen

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Samenvatting

Support