L'entrée visuelle peut-elle être compressée ? Un benchmark de compression de tokens visuels pour les grands modèles multimodaux
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
November 4, 2025
papers.authors: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI
papers.abstract
Les grands modèles multimodaux (LMM) souffrent souvent d'une inefficacité sévère lors de l'inférence en raison du grand nombre de tokens visuels introduits par les encodeurs d'images. Bien que les méthodes récentes de compression de tokens, telles que l'élagage et la fusion, aient montré des résultats prometteurs pour réduire la redondance, leur évaluation reste fragmentée et incohérente. Dans ce travail, nous présentons UniPruneBench, un benchmark unifié et extensible pour l'élagage de tokens visuels dans les LLM multimodaux. UniPruneBench fournit des protocoles standardisés couvrant six dimensions de capacités et dix jeux de données, incluant dix algorithmes de compression représentatifs et trois familles de LMM (LLaVA-v1.5, Intern-VL3 et Qwen2.5-VL). Au-delà de la précision sur les tâches, il intègre des métriques au niveau système, telles que le temps d'exécution et la latence de préremplissage, pour offrir une vue holistique. Nos expériences révèlent plusieurs résultats clés : (1) l'élagage aléatoire constitue une base de référence étonnamment solide, (2) aucune méthode ne surpasse constamment les autres dans tous les scénarios, (3) la sensibilité à l'élagage varie considérablement selon les tâches, la reconnaissance de caractères (OCR) étant la plus vulnérable, et (4) le taux d'élagage est le facteur dominant gouvernant la dégradation des performances. Nous pensons qu'UniPruneBench servira de fondation fiable pour les futures recherches sur la modélisation multimodale efficace.
English
Large multimodal models (LMMs) often suffer from severe inference
inefficiency due to the large number of visual tokens introduced by image
encoders. While recent token compression methods, such as pruning and merging,
have shown promise in reducing redundancy, their evaluation remains fragmented
and inconsistent. In this work, we present UniPruneBench, a unified and
extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench
provides standardized protocols across six ability dimensions and ten datasets,
covering ten representative compression algorithms and three families of LMMs
(LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates
system-level metrics such as runtime and prefilling latency to provide a
holistic view. Our experiments uncover several key findings: (1) random pruning
is a surprisingly strong baseline, (2) no single method consistently
outperforms others across scenarios, (3) pruning sensitivity varies
significantly across tasks, with OCR being most vulnerable, and (4) pruning
ratio is the dominant factor governing performance degradation. We believe
UniPruneBench will serve as a reliable foundation for future research on
efficient multimodal modeling.