Uno sguardo per comprimere: potatura dinamica dei token visivi per grandi modelli visione-linguaggio

Abstract

La compressione dei token visivi è fondamentale per i Modelli Linguistico-Visuali di Grande Scala (LVLMs) per elaborare in modo efficiente input ad alta risoluzione. I metodi esistenti, che tipicamente adottano rapporti di compressione fissi, non riescono ad adattarsi a scene di varia complessità, causando spesso una potatura imprecisa che scarta token visivi informativi e porta a un degrado delle prestazioni del modello. Per affrontare questo problema, introduciamo un framework di potatura dinamica, GlimpsePrune, ispirato alla cognizione umana. Questo approccio prende una "sbirciata" guidata dai dati e pota i token visivi irrilevanti in un singolo passaggio in avanti prima della generazione della risposta. Questo metodo pota il 92,6% dei token visivi mantenendo in media pienamente le prestazioni di riferimento nei task di VQA a risposta libera. Il ridotto costo computazionale consente anche un fine-tuning più efficace: una versione migliorata, GlimpsePrune+, raggiunge il 110% delle prestazioni di riferimento mantenendo un tasso di potatura altrettanto elevato. Il nostro lavoro apre una nuova strada per la costruzione di LVLMs più potenti ed efficienti.

English

Visual token compression is critical for Large Vision-Language Models (LVLMs) to efficiently process high-resolution inputs. Existing methods that typically adopt fixed compression ratios cannot adapt to scenes of varying complexity, often causing imprecise pruning that discards informative visual tokens and results in degraded model performance. To address this issue, we introduce a dynamic pruning framework, GlimpsePrune, inspired by human cognition. It takes a data-driven ''glimpse'' and prunes irrelevant visual tokens in a single forward pass before answer generation. This approach prunes 92.6% of visual tokens while on average fully retaining the baseline performance on free-form VQA tasks. The reduced computational cost also enables more effective fine-tuning: an enhanced GlimpsePrune+ achieves 110% of the baseline performance while maintaining a similarly high pruning rate. Our work paves a new way for building more powerful and efficient LVLMs.

Uno sguardo per comprimere: potatura dinamica dei token visivi per grandi modelli visione-linguaggio

A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

Abstract

Support