MMEvalPro : Étalonnage des benchmarks multimodaux pour une évaluation fiable et efficace
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
June 29, 2024
Auteurs: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMM) démontrent des capacités impressionnantes de compréhension et de raisonnement intermodaux, souvent évaluées à travers des questions à choix multiples (QCM) incluant une image, une question et plusieurs options. Cependant, de nombreux benchmarks utilisés pour ces évaluations souffrent de biais systématiques. De manière remarquable, les modèles de langage de grande taille (LLM) sans aucune capacité de perception visuelle atteignent des performances non négligeables, ce qui compromet la crédibilité de ces évaluations. Pour résoudre ce problème tout en maintenant l'efficacité des évaluations par QCM, nous proposons MMEvalPro, un benchmark conçu pour éviter les erreurs de type I grâce à un pipeline d'évaluation en trois étapes et des métriques plus rigoureuses. Pour chaque question originale provenant de benchmarks existants, des annotateurs humains l'augmentent en créant une question de perception et une question d'ancrage de connaissances à travers un processus d'annotation méticuleux. MMEvalPro comprend 2 138 triplets de questions, totalisant 6 414 questions distinctes. Deux tiers de ces questions sont étiquetées manuellement par des experts humains, tandis que le reste est issu de benchmarks existants (MMMU, ScienceQA et MathVista). Par rapport aux benchmarks existants, nos expériences avec les derniers LLM et LMM montrent que MMEvalPro est plus difficile (le meilleur LMM est en retard de 31,73 % par rapport aux performances humaines, contre un écart moyen de 8,03 % dans les benchmarks précédents) et plus fiable (le meilleur LLM est en retard de 23,09 % par rapport au meilleur LMM, alors que l'écart pour les benchmarks précédents est de seulement 14,64 %). Notre analyse approfondie explique la raison de ce grand écart de performance et justifie la fiabilité de l'évaluation, soulignant son potentiel significatif pour faire avancer les recherches futures.
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding
and reasoning abilities, often assessed through multiple-choice questions
(MCQs) that include an image, a question, and several options. However, many
benchmarks used for such evaluations suffer from systematic biases. Remarkably,
Large Language Models (LLMs) without any visual perception capabilities achieve
non-trivial performance, undermining the credibility of these evaluations. To
address this issue while maintaining the efficiency of MCQ evaluations, we
propose MMEvalPro, a benchmark designed to avoid Type-I errors through a
trilogy evaluation pipeline and more rigorous metrics. For each original
question from existing benchmarks, human annotators augment it by creating one
perception question and one knowledge anchor question through a meticulous
annotation process. MMEvalPro comprises 2,138 question triplets, totaling
6,414 distinct questions. Two-thirds of these questions are manually labeled
by human experts, while the rest are sourced from existing benchmarks (MMMU,
ScienceQA, and MathVista). Compared with the existing benchmarks, our
experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more
challenging (the best LMM lags behind human performance by 31.73%, compared
to an average gap of 8.03% in previous benchmarks) and more trustworthy (the
best LLM trails the best LMM by 23.09%, whereas the gap for previous
benchmarks is just 14.64%). Our in-depth analysis explains the reason for
the large performance gap and justifies the trustworthiness of evaluation,
underscoring its significant potential for advancing future research.Summary
AI-Generated Summary