AgilePruner: Estudio Empírico de la Atención y la Diversidad para la Poda Adaptativa de Tokens Visuales en Grandes Modelos de Visión y Lenguaje

Resumen

Los Grandes Modelos de Lenguaje y Visión (LVLM) han adoptado estrategias de poda de tokens visuales para mitigar la sobrecarga computacional sustancial que generan las extensas secuencias de tokens visuales. Si bien trabajos previos se centran principalmente en métodos de poda basados en atención o en diversidad, un análisis en profundidad de las características y limitaciones de estos enfoques sigue siendo en gran medida inexplorado. En este trabajo, realizamos un análisis empírico exhaustivo utilizando el rango efectivo (erank) como medida de la diversidad de características y la entropía de las puntuaciones de atención para investigar los mecanismos de procesamiento de tokens visuales y analizar las fortalezas y debilidades de cada enfoque. Nuestro análisis revela dos hallazgos: (1) Nuestro análisis cuantitativo basado en erank muestra que muchos métodos de poda orientados a la diversidad preservan sustancialmente menos diversidad de características de la prevista; además, el análisis utilizando el conjunto de datos CHAIR revela que la diversidad que sí conservan está estrechamente ligada a un aumento en la frecuencia de alucinaciones en comparación con la poda basada en atención. (2) Observamos además que los enfoques basados en atención son más efectivos en imágenes simples donde la evidencia visual está concentrada, mientras que los métodos basados en diversidad manejan mejor imágenes complejas con características distribuidas. Basándonos en estas percepciones empíricas, demostramos que incorporar ajustes conscientes de la imagen en las estrategias de poda híbridas existentes mejora consistentemente su rendimiento. También proporcionamos una instanciación mínima de nuestros hallazgos empíricos a través de un mecanismo de poda adaptativa simple, que logra un rendimiento sólido y confiable tanto en puntos de referencia estándar como en evaluaciones específicas de alucinaciones. Nuestra página del proyecto está disponible en https://cvsp-lab.github.io/AgilePruner.

English

Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.

AgilePruner: Estudio Empírico de la Atención y la Diversidad para la Poda Adaptativa de Tokens Visuales en Grandes Modelos de Visión y Lenguaje

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Resumen

Support