Uno sguardo per comprimere: potatura dinamica dei token visivi per grandi modelli visione-linguaggio
A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models
August 3, 2025
Autori: Quan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou
cs.AI
Abstract
La compressione dei token visivi è fondamentale per i Modelli Linguistico-Visuali di Grande Scala (LVLMs) per elaborare in modo efficiente input ad alta risoluzione. I metodi esistenti, che tipicamente adottano rapporti di compressione fissi, non riescono ad adattarsi a scene di varia complessità, causando spesso una potatura imprecisa che scarta token visivi informativi e porta a un degrado delle prestazioni del modello. Per affrontare questo problema, introduciamo un framework di potatura dinamica, GlimpsePrune, ispirato alla cognizione umana. Questo approccio prende una "sbirciata" guidata dai dati e pota i token visivi irrilevanti in un singolo passaggio in avanti prima della generazione della risposta. Questo metodo pota il 92,6% dei token visivi mantenendo in media pienamente le prestazioni di riferimento nei task di VQA a risposta libera. Il ridotto costo computazionale consente anche un fine-tuning più efficace: una versione migliorata, GlimpsePrune+, raggiunge il 110% delle prestazioni di riferimento mantenendo un tasso di potatura altrettanto elevato. Il nostro lavoro apre una nuova strada per la costruzione di LVLMs più potenti ed efficienti.
English
Visual token compression is critical for Large Vision-Language Models (LVLMs)
to efficiently process high-resolution inputs. Existing methods that typically
adopt fixed compression ratios cannot adapt to scenes of varying complexity,
often causing imprecise pruning that discards informative visual tokens and
results in degraded model performance. To address this issue, we introduce a
dynamic pruning framework, GlimpsePrune, inspired by human cognition. It takes
a data-driven ''glimpse'' and prunes irrelevant visual tokens in a single
forward pass before answer generation. This approach prunes 92.6% of visual
tokens while on average fully retaining the baseline performance on free-form
VQA tasks. The reduced computational cost also enables more effective
fine-tuning: an enhanced GlimpsePrune+ achieves 110% of the baseline
performance while maintaining a similarly high pruning rate. Our work paves a
new way for building more powerful and efficient LVLMs.