Ein Blick zur Kompression: Dynamische visuelle Token-Auswahl für große Vision-Sprache-Modelle
A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models
August 3, 2025
papers.authors: Quan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou
cs.AI
papers.abstract
Die Kompression visueller Tokens ist entscheidend für Large Vision-Language Models (LVLMs), um hochauflösende Eingaben effizient zu verarbeiten. Bestehende Methoden, die typischerweise feste Kompressionsverhältnisse verwenden, können sich nicht an Szenen unterschiedlicher Komplexität anpassen. Dies führt oft zu unpräzisem Beschneiden, bei dem informative visuelle Tokens verworfen werden, was die Modellleistung beeinträchtigt. Um dieses Problem zu lösen, stellen wir ein dynamisches Beschneidungsframework namens GlimpsePrune vor, das von der menschlichen Kognition inspiriert ist. Es nimmt einen datengesteuerten „Blick“ und beschneidet irrelevante visuelle Tokens in einem einzigen Vorwärtsdurchlauf vor der Antwortgenerierung. Dieser Ansatz beschneidet 92,6 % der visuellen Tokens, während die Baseline-Leistung bei freiform VQA-Aufgaben im Durchschnitt vollständig erhalten bleibt. Die reduzierte Rechenkosten ermöglichen auch eine effektivere Feinabstimmung: Eine verbesserte Version, GlimpsePrune+, erreicht 110 % der Baseline-Leistung bei gleichbleibend hoher Beschneidungsrate. Unsere Arbeit ebnet einen neuen Weg für die Entwicklung leistungsstärkerer und effizienterer LVLMs.
English
Visual token compression is critical for Large Vision-Language Models (LVLMs)
to efficiently process high-resolution inputs. Existing methods that typically
adopt fixed compression ratios cannot adapt to scenes of varying complexity,
often causing imprecise pruning that discards informative visual tokens and
results in degraded model performance. To address this issue, we introduce a
dynamic pruning framework, GlimpsePrune, inspired by human cognition. It takes
a data-driven ''glimpse'' and prunes irrelevant visual tokens in a single
forward pass before answer generation. This approach prunes 92.6% of visual
tokens while on average fully retaining the baseline performance on free-form
VQA tasks. The reduced computational cost also enables more effective
fine-tuning: an enhanced GlimpsePrune+ achieves 110% of the baseline
performance while maintaining a similarly high pruning rate. Our work paves a
new way for building more powerful and efficient LVLMs.