MMEvalPro: Calibrazione dei Benchmark Multimodali verso una Valutazione Affidabile ed Efficiente
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
June 29, 2024
Autori: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI
Abstract
I Large Multimodal Model (LMM) dimostrano impressionanti capacità di comprensione e ragionamento cross-modale, spesso valutate attraverso domande a scelta multipla (MCQ) che includono un'immagine, una domanda e diverse opzioni. Tuttavia, molti benchmark utilizzati per tali valutazioni soffrono di bias sistematici. Sorprendentemente, i Large Language Model (LLM) senza alcuna capacità di percezione visiva raggiungono prestazioni non trascurabili, minando la credibilità di queste valutazioni. Per affrontare questo problema mantenendo l'efficienza delle valutazioni MCQ, proponiamo MMEvalPro, un benchmark progettato per evitare errori di Tipo-I attraverso una pipeline di valutazione trilogica e metriche più rigorose. Per ogni domanda originale proveniente dai benchmark esistenti, annotatori umani la arricchiscono creando una domanda di percezione e una domanda ancorata alla conoscenza attraverso un processo di annotazione meticoloso. MMEvalPro comprende 2.138 triplette di domande, per un totale di 6.414 domande distinte. Due terzi di queste domande sono etichettate manualmente da esperti umani, mentre il resto è tratto da benchmark esistenti (MMMU, ScienceQA e MathVista). Rispetto ai benchmark esistenti, i nostri esperimenti con i più recenti LLM e LMM dimostrano che MMEvalPro è più impegnativo (il miglior LMM è in ritardo rispetto alle prestazioni umane del 31,73%, rispetto a un divario medio dell'8,03% nei benchmark precedenti) e più affidabile (il miglior LLM è in ritardo rispetto al miglior LMM del 23,09%, mentre il divario per i benchmark precedenti è solo del 14,64%). La nostra analisi approfondita spiega il motivo del grande divario di prestazioni e giustifica l'affidabilità della valutazione, sottolineando il suo significativo potenziale per far progredire la ricerca futura.
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding
and reasoning abilities, often assessed through multiple-choice questions
(MCQs) that include an image, a question, and several options. However, many
benchmarks used for such evaluations suffer from systematic biases. Remarkably,
Large Language Models (LLMs) without any visual perception capabilities achieve
non-trivial performance, undermining the credibility of these evaluations. To
address this issue while maintaining the efficiency of MCQ evaluations, we
propose MMEvalPro, a benchmark designed to avoid Type-I errors through a
trilogy evaluation pipeline and more rigorous metrics. For each original
question from existing benchmarks, human annotators augment it by creating one
perception question and one knowledge anchor question through a meticulous
annotation process. MMEvalPro comprises 2,138 question triplets, totaling
6,414 distinct questions. Two-thirds of these questions are manually labeled
by human experts, while the rest are sourced from existing benchmarks (MMMU,
ScienceQA, and MathVista). Compared with the existing benchmarks, our
experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more
challenging (the best LMM lags behind human performance by 31.73%, compared
to an average gap of 8.03% in previous benchmarks) and more trustworthy (the
best LLM trails the best LMM by 23.09%, whereas the gap for previous
benchmarks is just 14.64%). Our in-depth analysis explains the reason for
the large performance gap and justifies the trustworthiness of evaluation,
underscoring its significant potential for advancing future research.