Kann visuelle Eingabe komprimiert werden? Ein Benchmark für visuelle Token-Kompression bei großen multimodalen Modellen
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
November 4, 2025
papers.authors: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI
papers.abstract
Große multimodale Modelle (LMMs) leiden häufig unter erheblicher Inferenzineffizienz, verursacht durch die große Anzahl visueller Tokens, die von Bildencodern eingeführt werden. Obwohl neuere Token-Kompressionsmethoden wie Pruning und Zusammenführen vielversprechende Redundanzreduktion zeigen, bleibt ihre Evaluierung fragmentiert und inkonsistent. In dieser Arbeit stellen wir UniPruneBench vor, einen vereinheitlichten und erweiterbaren Benchmark für visuelles Token-Pruning in multimodalen LLMs. UniPruneBench bietet standardisierte Protokolle über sechs Fähigkeitsdimensionen und zehn Datensätze hinweg, die zehn repräsentative Kompressionsalgorithmen und drei Familien von LMMs (LLaVA-v1.5, Intern-VL3 und Qwen2.5-VL) abdecken. Über Aufgabengenauigkeit hinaus integriert es systemweite Metriken wie Laufzeit und Prefilling-Latenz, um eine ganzheitliche Sicht zu bieten. Unsere Experimente zeigen mehrere zentrale Erkenntnisse: (1) Zufälliges Pruning ist ein überraschend starker Baseline, (2) keine Methode übertrifft konsistent andere über alle Szenarien hinweg, (3) die Pruning-Empfindlichkeit variiert erheblich zwischen Aufgaben, wobei OCR am anfälligsten ist, und (4) das Pruning-Verhältnis ist der dominante Faktor für Leistungsverschlechterung. Wir sind überzeugt, dass UniPruneBench eine verlässliche Grundlage für zukünftige Forschung zu effizienter multimodaler Modellierung bieten wird.
English
Large multimodal models (LMMs) often suffer from severe inference
inefficiency due to the large number of visual tokens introduced by image
encoders. While recent token compression methods, such as pruning and merging,
have shown promise in reducing redundancy, their evaluation remains fragmented
and inconsistent. In this work, we present UniPruneBench, a unified and
extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench
provides standardized protocols across six ability dimensions and ten datasets,
covering ten representative compression algorithms and three families of LMMs
(LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates
system-level metrics such as runtime and prefilling latency to provide a
holistic view. Our experiments uncover several key findings: (1) random pruning
is a surprisingly strong baseline, (2) no single method consistently
outperforms others across scenarios, (3) pruning sensitivity varies
significantly across tasks, with OCR being most vulnerable, and (4) pruning
ratio is the dominant factor governing performance degradation. We believe
UniPruneBench will serve as a reliable foundation for future research on
efficient multimodal modeling.