AgilePruner: Um Estudo Empírico sobre Atenção e Diversidade para Poda Adaptativa de Tokens Visuais em Grandes Modelos de Visão e Linguagem

Resumo

Os Grandes Modelos de Visão e Linguagem (LVLMs) adotaram estratégias de poda de *tokens* visuais para mitigar a sobrecarga computacional substancial causada por sequências extensas de *tokens* visuais. Embora trabalhos anteriores se concentrem principalmente em métodos de poda baseados em atenção ou diversidade, uma análise aprofundada das características e limitações dessas abordagens permanece largamente inexplorada. Neste trabalho, conduzimos uma análise empírica minuciosa usando o posto efetivo (*erank*) como medida de diversidade de características e a entropia do *score* de atenção para investigar os mecanismos de processamento de *tokens* visuais e analisar os pontos fortes e fracos de cada abordagem. Nossa análise revela dois *insights*: (1) Nossa análise quantitativa baseada em *erank* mostra que muitos métodos de poda orientados à diversidade preservam substancialmente menos diversidade de características do que o pretendido; além disso, a análise usando o conjunto de dados CHAIR revela que a diversidade que eles retêm está intimamente ligada ao aumento da frequência de alucinações em comparação com a poda baseada em atenção. (2) Observamos ainda que as abordagens baseadas em atenção são mais eficazes em imagens simples onde a evidência visual está concentrada, enquanto os métodos baseados em diversidade lidam melhor com imagens complexas com características distribuídas. Com base nessas percepções empíricas, mostramos que a incorporação de ajustes conscientes da imagem em estratégias de poda híbridas existentes melhora consistentemente seu desempenho. Também fornecemos uma instanciação mínima de nossas descobertas empíricas por meio de um mecanismo de poda adaptativa simples, que alcança desempenho robusto e confiável em *benchmarks* padrão, bem como em avaliações específicas para alucinações. Nossa página do projeto está disponível em https://cvsp-lab.github.io/AgilePruner.

English

Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.

AgilePruner: Um Estudo Empírico sobre Atenção e Diversidade para Poda Adaptativa de Tokens Visuais em Grandes Modelos de Visão e Linguagem

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Resumo

Support