A Entrada Visual Pode Ser Comprimida? Um Benchmark de Compressão de Tokens Visuais para Grandes Modelos Multimodais
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
November 4, 2025
Autores: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI
Resumo
Os grandes modelos multimodais (LMMs) frequentemente sofrem de severa ineficiência inferencial devido ao grande número de *tokens* visuais introduzidos pelos codificadores de imagem. Embora métodos recentes de compressão de *tokens*, como poda (*pruning*) e fusão (*merging*), tenham mostrado potencial na redução de redundâncias, a sua avaliação permanece fragmentada e inconsistente. Neste trabalho, apresentamos o UniPruneBench, um *benchmark* unificado e extensível para a poda de *tokens* visuais em *LLMs* multimodais. O UniPruneBench fornece protocolos padronizados em seis dimensões de capacidade e dez conjuntos de dados, abrangendo dez algoritmos de compressão representativos e três famílias de LMMs (LLaVA-v1.5, Intern-VL3 e Qwen2.5-VL). Para além da precisão da tarefa, incorpora métricas de nível de sistema, como tempo de execução e latência de pré-preenchimento, para fornecer uma visão holística. As nossas experiências revelam várias conclusões-chave: (1) a poda aleatória é uma linha de base surpreendentemente robusta, (2) nenhum método único supera consistentemente os outros em todos os cenários, (3) a sensibilidade à poda varia significativamente entre tarefas, sendo o OCR o mais vulnerável, e (4) a taxa de poda é o fator dominante que governa a degradação do desempenho. Acreditamos que o UniPruneBench servirá como uma base confiável para futuras pesquisas sobre modelagem multimodal eficiente.
English
Large multimodal models (LMMs) often suffer from severe inference
inefficiency due to the large number of visual tokens introduced by image
encoders. While recent token compression methods, such as pruning and merging,
have shown promise in reducing redundancy, their evaluation remains fragmented
and inconsistent. In this work, we present UniPruneBench, a unified and
extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench
provides standardized protocols across six ability dimensions and ten datasets,
covering ten representative compression algorithms and three families of LMMs
(LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates
system-level metrics such as runtime and prefilling latency to provide a
holistic view. Our experiments uncover several key findings: (1) random pruning
is a surprisingly strong baseline, (2) no single method consistently
outperforms others across scenarios, (3) pruning sensitivity varies
significantly across tasks, with OCR being most vulnerable, and (4) pruning
ratio is the dominant factor governing performance degradation. We believe
UniPruneBench will serve as a reliable foundation for future research on
efficient multimodal modeling.