MMEvalPro: Het kalibreren van multimodale benchmarks voor betrouwbare en efficiënte evaluatie
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
June 29, 2024
Auteurs: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI
Samenvatting
Grote Multimodale Modellen (LMMs) vertonen indrukwekkende cross-modale begrips- en redeneervaardigheden, die vaak worden beoordeeld via meerkeuzevragen (MCQs) die een afbeelding, een vraag en verschillende opties bevatten. Veel benchmarks die voor dergelijke evaluaties worden gebruikt, lijden echter aan systematische vooroordelen. Opmerkelijk is dat Grote Taalmodellen (LLMs) zonder enige visuele waarnemingscapaciteit toch aanzienlijke prestaties behalen, wat de geloofwaardigheid van deze evaluaties ondermijnt. Om dit probleem aan te pakken terwijl de efficiëntie van MCQ-evaluaties behouden blijft, stellen we MMEvalPro voor, een benchmark die Type-I-fouten vermijdt door middel van een trilogie-evaluatiepijplijn en strengere metrieken. Voor elke originele vraag uit bestaande benchmarks verrijken menselijke annotatoren deze door één waarnemingsvraag en één kennisanker-vraag te creëren via een zorgvuldig annotatieproces. MMEvalPro bestaat uit 2.138 vraag-tripletten, wat neerkomt op 6.414 afzonderlijke vragen. Twee derde van deze vragen is handmatig gelabeld door menselijke experts, terwijl de rest afkomstig is uit bestaande benchmarks (MMMU, ScienceQA en MathVista). In vergelijking met de bestaande benchmarks tonen onze experimenten met de nieuwste LLMs en LMMs aan dat MMEvalPro uitdagender is (de beste LMM blijft 31,73% achter op menselijke prestaties, vergeleken met een gemiddeld verschil van 8,03% in eerdere benchmarks) en betrouwbaarder (de beste LLM blijft 23,09% achter op de beste LMM, terwijl het verschil voor eerdere benchmarks slechts 14,64% was). Onze diepgaande analyse verklaart de reden voor het grote prestatieverschil en rechtvaardigt de betrouwbaarheid van de evaluatie, wat het significante potentieel voor het bevorderen van toekomstig onderzoek onderstreept.
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding
and reasoning abilities, often assessed through multiple-choice questions
(MCQs) that include an image, a question, and several options. However, many
benchmarks used for such evaluations suffer from systematic biases. Remarkably,
Large Language Models (LLMs) without any visual perception capabilities achieve
non-trivial performance, undermining the credibility of these evaluations. To
address this issue while maintaining the efficiency of MCQ evaluations, we
propose MMEvalPro, a benchmark designed to avoid Type-I errors through a
trilogy evaluation pipeline and more rigorous metrics. For each original
question from existing benchmarks, human annotators augment it by creating one
perception question and one knowledge anchor question through a meticulous
annotation process. MMEvalPro comprises 2,138 question triplets, totaling
6,414 distinct questions. Two-thirds of these questions are manually labeled
by human experts, while the rest are sourced from existing benchmarks (MMMU,
ScienceQA, and MathVista). Compared with the existing benchmarks, our
experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more
challenging (the best LMM lags behind human performance by 31.73%, compared
to an average gap of 8.03% in previous benchmarks) and more trustworthy (the
best LLM trails the best LMM by 23.09%, whereas the gap for previous
benchmarks is just 14.64%). Our in-depth analysis explains the reason for
the large performance gap and justifies the trustworthiness of evaluation,
underscoring its significant potential for advancing future research.