MMEvalPro: Kalibrierung von multimodalen Benchmarks für vertrauenswürdige und effiziente Evaluation
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
June 29, 2024
Autoren: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) zeigen beeindruckende fachübergreifende Verständnis- und Schlussfolgerungsfähigkeiten, die oft durch Multiple-Choice-Fragen (MCQs) bewertet werden, die ein Bild, eine Frage und mehrere Optionen enthalten. Viele Benchmarks, die für solche Bewertungen verwendet werden, leiden jedoch unter systematischen Verzerrungen. Bemerkenswerterweise erzielen große Sprachmodelle (LLMs) ohne visuelle Wahrnehmungsfähigkeiten eine nicht unerhebliche Leistung, was die Glaubwürdigkeit dieser Bewertungen untergräbt. Um dieses Problem anzugehen und gleichzeitig die Effizienz von MCQ-Bewertungen zu erhalten, schlagen wir MMEvalPro vor, einen Benchmark, der durch einen dreigliedrigen Bewertungspfad und strengere Metriken Typ-I-Fehler vermeiden soll. Für jede originale Frage aus bestehenden Benchmarks erweitern menschliche Annotatoren sie durch die Erstellung einer Wahrnehmungsfrage und einer Wissensankerfrage im Rahmen eines sorgfältigen Annotationsprozesses. MMEvalPro umfasst 2.138 Frage-Triplets mit insgesamt 6.414 verschiedenen Fragen. Zwei Drittel dieser Fragen werden manuell von Experten gekennzeichnet, während der Rest aus bestehenden Benchmarks stammt (MMMU, ScienceQA und MathVista). Im Vergleich zu den bestehenden Benchmarks zeigen unsere Experimente mit den neuesten LLMs und LMMs, dass MMEvalPro anspruchsvoller ist (das beste LMM liegt 31,73% hinter der menschlichen Leistung zurück, verglichen mit einem durchschnittlichen Unterschied von 8,03% in früheren Benchmarks) und vertrauenswürdiger ist (das beste LLM liegt 23,09% hinter dem besten LMM zurück, während der Unterschied bei früheren Benchmarks nur 14,64% beträgt). Unsere eingehende Analyse erklärt den Grund für den großen Leistungsunterschied und rechtfertigt die Vertrauenswürdigkeit der Bewertung, was ihr erhebliches Potenzial zur Förderung zukünftiger Forschung unterstreicht.
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding
and reasoning abilities, often assessed through multiple-choice questions
(MCQs) that include an image, a question, and several options. However, many
benchmarks used for such evaluations suffer from systematic biases. Remarkably,
Large Language Models (LLMs) without any visual perception capabilities achieve
non-trivial performance, undermining the credibility of these evaluations. To
address this issue while maintaining the efficiency of MCQ evaluations, we
propose MMEvalPro, a benchmark designed to avoid Type-I errors through a
trilogy evaluation pipeline and more rigorous metrics. For each original
question from existing benchmarks, human annotators augment it by creating one
perception question and one knowledge anchor question through a meticulous
annotation process. MMEvalPro comprises 2,138 question triplets, totaling
6,414 distinct questions. Two-thirds of these questions are manually labeled
by human experts, while the rest are sourced from existing benchmarks (MMMU,
ScienceQA, and MathVista). Compared with the existing benchmarks, our
experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more
challenging (the best LMM lags behind human performance by 31.73%, compared
to an average gap of 8.03% in previous benchmarks) and more trustworthy (the
best LLM trails the best LMM by 23.09%, whereas the gap for previous
benchmarks is just 14.64%). Our in-depth analysis explains the reason for
the large performance gap and justifies the trustworthiness of evaluation,
underscoring its significant potential for advancing future research.Summary
AI-Generated Summary