¿Se Puede Comprimir la Entrada Visual? Un Benchmark de Compresión de Tokens Visuales para Modelos Multimodales de Gran Escala
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
November 4, 2025
Autores: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
cs.AI
Resumen
Los modelos multimodales grandes (LMMs) a menudo sufren de una severa ineficiencia en la inferencia debido al gran número de tokens visuales introducidos por los codificadores de imágenes. Si bien los métodos recientes de compresión de tokens, como la poda y la fusión, han mostrado potencial para reducir la redundancia, su evaluación sigue siendo fragmentada e inconsistente. En este trabajo, presentamos UniPruneBench, un benchmark unificado y extensible para la poda de tokens visuales en LLMs multimodales. UniPruneBench proporciona protocolos estandarizados en seis dimensiones de capacidad y diez conjuntos de datos, cubriendo diez algoritmos de compresión representativos y tres familias de LMMs (LLaVA-v1.5, Intern-VL3 y Qwen2.5-VL). Más allá de la precisión en las tareas, incorpora métricas a nivel de sistema, como el tiempo de ejecución y la latencia de precarga, para ofrecer una visión holística. Nuestros experimentos revelan varios hallazgos clave: (1) la poda aleatoria es una línea base sorprendentemente sólida, (2) ningún método supera consistentemente a los demás en todos los escenarios, (3) la sensibilidad a la poda varía significativamente entre tareas, siendo el OCR el más vulnerable, y (4) la proporción de poda es el factor dominante que gobierna la degradación del rendimiento. Creemos que UniPruneBench servirá como una base confiable para la investigación futura sobre modelado multimodal eficiente.
English
Large multimodal models (LMMs) often suffer from severe inference
inefficiency due to the large number of visual tokens introduced by image
encoders. While recent token compression methods, such as pruning and merging,
have shown promise in reducing redundancy, their evaluation remains fragmented
and inconsistent. In this work, we present UniPruneBench, a unified and
extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench
provides standardized protocols across six ability dimensions and ten datasets,
covering ten representative compression algorithms and three families of LMMs
(LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates
system-level metrics such as runtime and prefilling latency to provide a
holistic view. Our experiments uncover several key findings: (1) random pruning
is a surprisingly strong baseline, (2) no single method consistently
outperforms others across scenarios, (3) pruning sensitivity varies
significantly across tasks, with OCR being most vulnerable, and (4) pruning
ratio is the dominant factor governing performance degradation. We believe
UniPruneBench will serve as a reliable foundation for future research on
efficient multimodal modeling.