AgilePruner: Эмпирическое исследование внимания и разнообразия для адаптивного визуального сокращения токенов в больших мультимодальных моделях

Аннотация

Крупные визуально-языковые модели (LVLM) применяют стратегии прореживания визуальных токенов для снижения значительных вычислительных затрат, связанных с обработкой обширных последовательностей визуальных токенов. Хотя предыдущие работы в основном сосредоточены на методах прореживания, основанных либо на внимании, либо на разнообразии, глубокий анализ характеристик и ограничений этих подходов остаётся практически не изученным. В данной работе мы проводим всесторонний эмпирический анализ, используя эффективный ранг (erank) как меру разнообразия признаков и энтропию оценок внимания для исследования механизмов обработки визуальных токенов и анализа сильных и слабых сторон каждого подхода. Наш анализ выявил два ключевых вывода: (1) Количественный анализ на основе erank показывает, что многие методы прореживания, ориентированные на разнообразие, сохраняют значительно меньше разнообразия признаков, чем предполагалось; более того, анализ с использованием набора данных CHAIR показывает, что сохраняемое ими разнообразие тесно связано с повышенной частотой галлюцинаций по сравнению с прореживанием на основе внимания. (2) Мы также наблюдаем, что подходы на основе внимания более эффективны для простых изображений, где визуальные признаки сконцентрированы, тогда как методы, основанные на разнообразии, лучше справляются со сложными изображениями с распределёнными признаками. Опираясь на эти эмпирические инсайты, мы демонстрируем, что внесение адаптивных к изображению корректировок в существующие гибридные стратегии прореживания последовательно улучшает их производительность. Мы также представляем минимальную реализацию наших эмпирических выводов в виде простого адаптивного механизма прореживания, который демонстрирует высокую и стабильную производительность как на стандартных бенчмарках, так и в специализированных оценках на галлюцинации. Страница проекта доступна по адресу https://cvsp-lab.github.io/AgilePruner.

English

Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.

AgilePruner: Эмпирическое исследование внимания и разнообразия для адаптивного визуального сокращения токенов в больших мультимодальных моделях

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Аннотация

Support