ChatPaper.aiChatPaper

L'Input Visivo Può Essere Compresso? Un Benchmark di Compressione di Token Visivi per Grandi Modelli Multimodali

Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

November 4, 2025
Autori: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI

Abstract

I grandi modelli multimodali (LMM) soffrono spesso di una grave inefficienza inferenziale a causa dell'elevato numero di token visivi introdotti dagli encoder di immagini. Sebbene i recenti metodi di compressione dei token, come il pruning e la fusione, abbiano mostrato potenziale nel ridurre la ridondanza, la loro valutazione rimane frammentata e incoerente. In questo lavoro, presentiamo UniPruneBench, un benchmark unificato ed estendibile per il pruning di token visivi negli LLM multimodali. UniPruneBench fornisce protocolli standardizzati su sei dimensioni di abilità e dieci dataset, coprendo dieci algoritmi di compressione rappresentativi e tre famiglie di LMM (LLaVA-v1.5, Intern-VL3 e Qwen2.5-VL). Oltre all'accuratezza sul compito, incorpora metriche a livello di sistema come il tempo di esecuzione e la latenza di prefilling per fornire una visione olistica. I nostri esperimenti rivelano diverse scoperte chiave: (1) il pruning casuale è una baseline sorprendentemente solida, (2) nessun singolo metodo supera costantemente gli altri negli scenari, (3) la sensibilità al pruning varia significativamente tra i compiti, con l'OCR che è il più vulnerabile, e (4) il rapporto di pruning è il fattore dominante che governa il degrado delle prestazioni. Crediamo che UniPruneBench servirà come base affidabile per la futura ricerca sulla modellazione multimodale efficiente.
English
Large multimodal models (LMMs) often suffer from severe inference inefficiency due to the large number of visual tokens introduced by image encoders. While recent token compression methods, such as pruning and merging, have shown promise in reducing redundancy, their evaluation remains fragmented and inconsistent. In this work, we present UniPruneBench, a unified and extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench provides standardized protocols across six ability dimensions and ten datasets, covering ten representative compression algorithms and three families of LMMs (LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates system-level metrics such as runtime and prefilling latency to provide a holistic view. Our experiments uncover several key findings: (1) random pruning is a surprisingly strong baseline, (2) no single method consistently outperforms others across scenarios, (3) pruning sensitivity varies significantly across tasks, with OCR being most vulnerable, and (4) pruning ratio is the dominant factor governing performance degradation. We believe UniPruneBench will serve as a reliable foundation for future research on efficient multimodal modeling.
PDF91December 2, 2025