Kunnen visuele input worden gecomprimeerd? Een benchmark voor visuele tokencompressie voor grote multimodale modellen
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
November 4, 2025
Auteurs: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI
Samenvatting
Grote multimodale modellen (LMM's) kampen vaak met ernstige inefficiëntie tijdens inferentie als gevolg van het grote aantal visuele tokens dat door beeldencoders wordt geïntroduceerd. Hoewel recente tokencompressiemethoden, zoals pruning en samenvoeging, veelbelovend zijn gebleken in het verminderen van redundantie, blijft hun evaluatie gefragmenteerd en inconsistent. In dit werk presenteren we UniPruneBench, een uniforme en uitbreidbare benchmark voor het pruning van visuele tokens in multimodale LLM's. UniPruneBench biedt gestandaardiseerde protocollen over zes vaardigheidsdimensies en tien datasets, waarbij tien representatieve compressie-algoritmen en drie families van LMM's (LLaVA-v1.5, Intern-VL3 en Qwen2.5-VL) worden bestreken. Naast taaknauwkeurigheid integreert het systeemniveau-metrieken zoals runtime en prefilling-latency om een holistisch beeld te geven. Onze experimenten onthullen verschillende belangrijke bevindingen: (1) willekeurige pruning is een verrassend sterke baseline, (2) geen enkele methode presteert consistent beter dan andere in alle scenario's, (3) de gevoeligheid voor pruning varieert aanzienlijk tussen taken, waarbij OCR het kwetsbaarst is, en (4) de pruningratio is de dominante factor die prestatievermindering bepaalt. Wij geloven dat UniPruneBench een betrouwbare basis zal vormen voor toekomstig onderzoek naar efficiënte multimodale modellering.
English
Large multimodal models (LMMs) often suffer from severe inference
inefficiency due to the large number of visual tokens introduced by image
encoders. While recent token compression methods, such as pruning and merging,
have shown promise in reducing redundancy, their evaluation remains fragmented
and inconsistent. In this work, we present UniPruneBench, a unified and
extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench
provides standardized protocols across six ability dimensions and ten datasets,
covering ten representative compression algorithms and three families of LMMs
(LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates
system-level metrics such as runtime and prefilling latency to provide a
holistic view. Our experiments uncover several key findings: (1) random pruning
is a surprisingly strong baseline, (2) no single method consistently
outperforms others across scenarios, (3) pruning sensitivity varies
significantly across tasks, with OCR being most vulnerable, and (4) pruning
ratio is the dominant factor governing performance degradation. We believe
UniPruneBench will serve as a reliable foundation for future research on
efficient multimodal modeling.