AgilePruner: Eine empirische Studie zu Aufmerksamkeit und Diversität für adaptive visuelle Token-Ausdünnung in großen Sprach-Bild-Modellen

Zusammenfassung

Große Vision-Sprach-Modelle (LVLMs) haben Strategien zur Reduzierung visueller Tokens übernommen, um den erheblichen Rechenaufwand durch umfangreiche visuelle Token-Sequenzen zu mildern. Während sich frühere Arbeiten hauptsächlich auf aufmerksamkeitsbasierte oder diversitätsbasierte Reduktionsmethoden konzentrierten, bleibt eine eingehende Analyse der Eigenschaften und Grenzen dieser Ansätze weitgehend unerforscht. In dieser Arbeit führen wir eine umfassende empirische Analyse durch, bei der wir den effektiven Rang (erank) als Maß für die Merkmalsvielfalt und die Entropie der Aufmerksamkeitswerte verwenden, um die Verarbeitungsmechanismen visueller Tokens zu untersuchen und die Stärken und Schwächen jedes Ansatzes zu analysieren. Unsere Analyse liefert zwei Erkenntnisse: (1) Unsere auf erank basierende quantitative Analyse zeigt, dass viele diversitätsorientierte Reduktionsmethoden erheblich weniger Merkmalsvielfalt bewahren als beabsichtigt; darüber hinaus zeigt eine Analyse mit dem CHAIR-Datensatz, dass die von ihnen erhaltene Diversität eng mit einer erhöhten Halluzinationshäufigkeit im Vergleich zu aufmerksamkeitsbasierter Reduktion verbunden ist. (2) Wir beobachten weiterhin, dass aufmerksamkeitsbasierte Ansätze bei einfachen Bildern, bei denen visuelle Evidenz konzentriert ist, effektiver sind, während diversitätsbasierte Methoden komplexe Bilder mit verteilten Merkmalen besser handhaben. Aufbauend auf diesen empirischen Erkenntnissen zeigen wir, dass die Einbeziehung bildabhängiger Anpassungen in bestehende hybride Reduktionsstrategien deren Leistung konsistent verbessert. Wir liefern auch eine minimale Instanziierung unserer empirischen Ergebnisse durch einen einfachen adaptiven Reduktionsmechanismus, der eine starke und zuverlässige Leistung sowohl in Standard-Benchmarks als auch in halluzinationsspezifischen Auswertungen erzielt. Unsere Projektseite ist verfügbar unter https://cvsp-lab.github.io/AgilePruner.

English

Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.

AgilePruner: Eine empirische Studie zu Aufmerksamkeit und Diversität für adaptive visuelle Token-Ausdünnung in großen Sprach-Bild-Modellen

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Zusammenfassung

Support