MMEvalPro: Calibración de Evaluaciones Multimodales hacia una Medición Confiable y Eficiente
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
June 29, 2024
Autores: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI
Resumen
Los Modelos Multimodales de Gran Escala (LMMs) exhiben capacidades impresionantes de comprensión y razonamiento multimodal, evaluadas frecuentemente mediante preguntas de opción múltiple (MCQs) que incluyen una imagen, una pregunta y varias opciones. Sin embargo, muchos de los benchmarks utilizados para estas evaluaciones presentan sesgos sistemáticos. Notablemente, los Modelos de Lenguaje de Gran Escala (LLMs) sin capacidades de percepción visual logran un desempeño no trivial, lo que socava la credibilidad de estas evaluaciones. Para abordar este problema manteniendo la eficiencia de las evaluaciones con MCQs, proponemos MMEvalPro, un benchmark diseñado para evitar errores de Tipo-I mediante una trilogía de evaluación y métricas más rigurosas. Para cada pregunta original de los benchmarks existentes, anotadores humanos la amplían creando una pregunta de percepción y una pregunta de anclaje de conocimiento a través de un proceso de anotación meticuloso. MMEvalPro consta de 2,138 tripletes de preguntas, totalizando 6,414 preguntas distintas. Dos tercios de estas preguntas están etiquetadas manualmente por expertos humanos, mientras que el resto proviene de benchmarks existentes (MMMU, ScienceQA y MathVista). En comparación con los benchmarks actuales, nuestros experimentos con los últimos LLMs y LMMs demuestran que MMEvalPro es más desafiante (el mejor LMM se encuentra 31.73% por detrás del desempeño humano, en comparación con una brecha promedio de 8.03% en benchmarks anteriores) y más confiable (el mejor LLM está 23.09% por detrás del mejor LMM, mientras que la brecha en benchmarks anteriores es de solo 14.64%). Nuestro análisis en profundidad explica la razón de la gran brecha de desempeño y justifica la confiabilidad de la evaluación, destacando su potencial significativo para impulsar futuras investigaciones.
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding
and reasoning abilities, often assessed through multiple-choice questions
(MCQs) that include an image, a question, and several options. However, many
benchmarks used for such evaluations suffer from systematic biases. Remarkably,
Large Language Models (LLMs) without any visual perception capabilities achieve
non-trivial performance, undermining the credibility of these evaluations. To
address this issue while maintaining the efficiency of MCQ evaluations, we
propose MMEvalPro, a benchmark designed to avoid Type-I errors through a
trilogy evaluation pipeline and more rigorous metrics. For each original
question from existing benchmarks, human annotators augment it by creating one
perception question and one knowledge anchor question through a meticulous
annotation process. MMEvalPro comprises 2,138 question triplets, totaling
6,414 distinct questions. Two-thirds of these questions are manually labeled
by human experts, while the rest are sourced from existing benchmarks (MMMU,
ScienceQA, and MathVista). Compared with the existing benchmarks, our
experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more
challenging (the best LMM lags behind human performance by 31.73%, compared
to an average gap of 8.03% in previous benchmarks) and more trustworthy (the
best LLM trails the best LMM by 23.09%, whereas the gap for previous
benchmarks is just 14.64%). Our in-depth analysis explains the reason for
the large performance gap and justifies the trustworthiness of evaluation,
underscoring its significant potential for advancing future research.Summary
AI-Generated Summary