Взгляд на сжатие: Динамическое сокращение визуальных токенов для крупных визуально-языковых моделей
A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models
August 3, 2025
Авторы: Quan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou
cs.AI
Аннотация
Сжатие визуальных токенов имеет решающее значение для крупных визуально-языковых моделей (LVLMs), чтобы эффективно обрабатывать входные данные с высоким разрешением. Существующие методы, которые обычно используют фиксированные коэффициенты сжатия, не могут адаптироваться к сценам различной сложности, что часто приводит к неточному удалению токенов, при котором отбрасываются информативные визуальные токены и ухудшается производительность модели. Для решения этой проблемы мы представляем динамическую структуру удаления токенов, GlimpsePrune, вдохновленную человеческим познанием. Она использует основанный на данных «взгляд» и удаляет нерелевантные визуальные токены за один прямой проход перед генерацией ответа. Этот подход удаляет 92,6% визуальных токенов, при этом в среднем полностью сохраняя базовую производительность на задачах свободного визуального вопроса-ответа (VQA). Снижение вычислительных затрат также позволяет более эффективно проводить тонкую настройку: улучшенная версия GlimpsePrune+ достигает 110% базовой производительности при сохранении столь же высокой степени удаления токенов. Наша работа открывает новый путь для создания более мощных и эффективных LVLMs.
English
Visual token compression is critical for Large Vision-Language Models (LVLMs)
to efficiently process high-resolution inputs. Existing methods that typically
adopt fixed compression ratios cannot adapt to scenes of varying complexity,
often causing imprecise pruning that discards informative visual tokens and
results in degraded model performance. To address this issue, we introduce a
dynamic pruning framework, GlimpsePrune, inspired by human cognition. It takes
a data-driven ''glimpse'' and prunes irrelevant visual tokens in a single
forward pass before answer generation. This approach prunes 92.6% of visual
tokens while on average fully retaining the baseline performance on free-form
VQA tasks. The reduced computational cost also enables more effective
fine-tuning: an enhanced GlimpsePrune+ achieves 110% of the baseline
performance while maintaining a similarly high pruning rate. Our work paves a
new way for building more powerful and efficient LVLMs.