Principios de Redundancia para Evaluaciones de MLLMs
Redundancy Principles for MLLMs Benchmarks
January 20, 2025
Autores: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
cs.AI
Resumen
Con la rápida iteración de Modelos de Lenguaje Multimodal a Gran Escala (MLLMs, por sus siglas en inglés) y las demandas en evolución del campo, el número de benchmarks producidos anualmente ha aumentado hasta alcanzar cientos. El crecimiento acelerado ha llevado inevitablemente a una redundancia significativa entre los benchmarks. Por lo tanto, es crucial dar un paso atrás y evaluar críticamente el estado actual de la redundancia, proponiendo principios específicos para la construcción de benchmarks efectivos de MLLM. En este artículo, nos enfocamos en la redundancia desde tres perspectivas clave: 1) Redundancia de las dimensiones de capacidad de los benchmarks, 2) Redundancia en el número de preguntas de prueba, y 3) Redundancia entre benchmarks dentro de dominios específicos. A través del análisis exhaustivo de cientos de rendimientos de MLLMs en más de 20 benchmarks, nuestro objetivo es medir cuantitativamente el nivel de redundancia presente en las evaluaciones de MLLM existentes, proporcionar ideas valiosas para guiar el futuro desarrollo de benchmarks de MLLM y ofrecer estrategias para refinar y abordar eficazmente los problemas de redundancia.
English
With the rapid iteration of Multi-modality Large Language Models (MLLMs) and
the evolving demands of the field, the number of benchmarks produced annually
has surged into the hundreds. The rapid growth has inevitably led to
significant redundancy among benchmarks. Therefore, it is crucial to take a
step back and critically assess the current state of redundancy and propose
targeted principles for constructing effective MLLM benchmarks. In this paper,
we focus on redundancy from three key perspectives: 1) Redundancy of benchmark
capability dimensions, 2) Redundancy in the number of test questions, and 3)
Cross-benchmark redundancy within specific domains. Through the comprehensive
analysis over hundreds of MLLMs' performance across more than 20 benchmarks, we
aim to quantitatively measure the level of redundancy lies in existing MLLM
evaluations, provide valuable insights to guide the future development of MLLM
benchmarks, and offer strategies to refine and address redundancy issues
effectively.Summary
AI-Generated Summary