Может ли визуальная информация быть сжатой? Бенчмарк сжатия визуальных токенов для крупных мультимодальных моделей
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
November 4, 2025
Авторы: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI
Аннотация
Крупные мультимодальные модели (LMM) часто страдают от значительной неэффективности вывода из-за большого количества визуальных токенов, генерируемых энкодерами изображений. Хотя современные методы сжатия токенов, такие как прореживание и объединение, демонстрируют потенциал в снижении избыточности, их оценка остается фрагментированной и несогласованной. В данной работе мы представляем UniPruneBench — унифицированный и расширяемый бенчмарк для прореживания визуальных токенов в мультимодальных LLM. UniPruneBench предлагает стандартизированные протоколы оценки по шести направлениям способностей и десяти наборам данных, охватывая десять репрезентативных алгоритмов сжатия и три семейства LMM (LLaVA-v1.5, Intern-VL и Qwen2.5-VL). Помимо точности выполнения задач, бенчмарк включает системные метрики, такие как время выполнения и латентность предзаполнения, для комплексного анализа. Наши эксперименты выявили ключевые закономерности: (1) случайное прореживание неожиданно является сильным базовым методом, (2) ни один метод не демонстрирует стабильного превосходства во всех сценариях, (3) чувствительность к прореживанию существенно варьируется между задачами, причем OCR наиболее уязвима, (4) степень сжатия является доминирующим фактором деградации производительности. Мы полагаем, что UniPruneBench станет надежной основой для будущих исследований эффективного мультимодального моделирования.
English
Large multimodal models (LMMs) often suffer from severe inference
inefficiency due to the large number of visual tokens introduced by image
encoders. While recent token compression methods, such as pruning and merging,
have shown promise in reducing redundancy, their evaluation remains fragmented
and inconsistent. In this work, we present UniPruneBench, a unified and
extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench
provides standardized protocols across six ability dimensions and ten datasets,
covering ten representative compression algorithms and three families of LMMs
(LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates
system-level metrics such as runtime and prefilling latency to provide a
holistic view. Our experiments uncover several key findings: (1) random pruning
is a surprisingly strong baseline, (2) no single method consistently
outperforms others across scenarios, (3) pruning sensitivity varies
significantly across tasks, with OCR being most vulnerable, and (4) pruning
ratio is the dominant factor governing performance degradation. We believe
UniPruneBench will serve as a reliable foundation for future research on
efficient multimodal modeling.