AgilePruner: Uno studio empirico sull'attenzione e la diversità per la potatura adattiva dei token visivi nei grandi modelli visione-linguaggio

Abstract

I grandi modelli visione-linguaggio (LVLM) hanno adottato strategie di potatura dei token visivi per mitigare il sostanziale sovraccarico computazionale derivante da sequenze estese di token visivi. Sebbene i lavori precedenti si concentrino principalmente su metodi di potatura basati sull'attenzione o sulla diversità, un'analisi approfondita delle caratteristiche e dei limiti di questi approcci rimane in gran parte inesplorata. In questo lavoro, conduciamo un'accurata analisi empirica utilizzando il rango efficace (erank) come misura della diversità delle feature e l'entropia del punteggio di attenzione per investigare i meccanismi di elaborazione dei token visivi e analizzare i punti di forza e di debolezza di ciascun approccio. La nostra analisi rivela due intuizioni: (1) La nostra analisi quantitativa basata su erank mostra che molti metodi di potatura orientati alla diversità preservano sostanzialmente meno diversità di feature del previsto; inoltre, l'analisi utilizzando il dataset CHAIR rivela che la diversità che effettivamente conservano è strettamente legata a una maggiore frequenza di allucinazioni rispetto alla potatura basata sull'attenzione. (2) Osserviamo inoltre che gli approcci basati sull'attenzione sono più efficaci su immagini semplici dove l'evidenza visiva è concentrata, mentre i metodi basati sulla diversità gestiscono meglio immagini complesse con feature distribuite. Basandoci su queste intuizioni empiriche, dimostriamo che l'incorporazione di aggiustamenti consapevoli del contenuto immagine nelle strategie ibride di potatura esistenti ne migliora costantemente le prestazioni. Forniamo anche un'istanza minima dei nostri risultati empirici attraverso un semplice meccanismo di potatura adattiva, che raggiunge prestazioni solide e affidabili su benchmark standard così come su valutazioni specifiche per le allucinazioni. La nostra pagina progetto è disponibile all'indirizzo https://cvsp-lab.github.io/AgilePruner.

English

Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.

AgilePruner: Uno studio empirico sull'attenzione e la diversità per la potatura adattiva dei token visivi nei grandi modelli visione-linguaggio

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Abstract

Support