Un aperçu pour compresser : Élagage dynamique de tokens visuels pour les grands modèles vision-langage
A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models
August 3, 2025
papers.authors: Quan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou
cs.AI
papers.abstract
La compression des tokens visuels est essentielle pour les modèles de vision et langage de grande envergure (LVLMs) afin de traiter efficacement des entrées à haute résolution. Les méthodes existantes, qui adoptent généralement des ratios de compression fixes, ne peuvent pas s'adapter à des scènes de complexité variable, entraînant souvent une élagage imprécis qui supprime des tokens visuels informatifs et dégrade les performances du modèle. Pour résoudre ce problème, nous introduisons un cadre d'élagage dynamique, GlimpsePrune, inspiré par la cognition humaine. Il prend un « aperçu » basé sur les données et élimine les tokens visuels non pertinents en une seule passe avant la génération de la réponse. Cette approche élimine 92,6 % des tokens visuels tout en conservant en moyenne pleinement les performances de référence sur des tâches de question-réponse libre. La réduction des coûts de calcul permet également un réglage plus efficace : une version améliorée, GlimpsePrune+, atteint 110 % des performances de référence tout en maintenant un taux d'élagage similairement élevé. Notre travail ouvre une nouvelle voie pour la construction de LVLMs plus puissants et efficaces.
English
Visual token compression is critical for Large Vision-Language Models (LVLMs)
to efficiently process high-resolution inputs. Existing methods that typically
adopt fixed compression ratios cannot adapt to scenes of varying complexity,
often causing imprecise pruning that discards informative visual tokens and
results in degraded model performance. To address this issue, we introduce a
dynamic pruning framework, GlimpsePrune, inspired by human cognition. It takes
a data-driven ''glimpse'' and prunes irrelevant visual tokens in a single
forward pass before answer generation. This approach prunes 92.6% of visual
tokens while on average fully retaining the baseline performance on free-form
VQA tasks. The reduced computational cost also enables more effective
fine-tuning: an enhanced GlimpsePrune+ achieves 110% of the baseline
performance while maintaining a similarly high pruning rate. Our work paves a
new way for building more powerful and efficient LVLMs.