UPME: Een Onbewaakt Peer Review Raamwerk voor de Evaluatie van Multimodale Grote Taalmodellen
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
March 19, 2025
Auteurs: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) zijn ontstaan om de uitdagingen van Visual Question Answering (VQA) aan te pakken, wat een nieuwe onderzoeksfocus heeft ontstoken op het uitvoeren van objectieve evaluaties van deze modellen. Bestaande evaluatiemethoden kampen met beperkingen vanwege de aanzienlijke menselijke inspanning die nodig is om vraag-en-antwoordparen voor visuele afbeeldingen te ontwerpen, wat inherent de schaal en reikwijdte van evaluaties beperkt. Hoewel geautomatiseerde MLLM-as-judge-benaderingen proberen de menselijke inspanning te verminderen door middel van automatische evaluaties, introduceren ze vaak biases. Om deze problemen aan te pakken, stellen we een Unsupervised Peer review MLLM Evaluation-framework voor. Het maakt alleen gebruik van beeldgegevens, waardoor modellen automatisch vragen kunnen genereren en peer review-beoordelingen van antwoorden van andere modellen kunnen uitvoeren, wat de afhankelijkheid van menselijke inspanning effectief vermindert. Daarnaast introduceren we het vision-language scoringsysteem om de bias-problemen te mitigeren, dat zich richt op drie aspecten: (i) correctheid van het antwoord; (ii) visueel begrip en redenering; en (iii) beeld-tekstcorrelatie. Experimentele resultaten tonen aan dat UPME een Pearson-correlatie van 0,944 bereikt met menselijke evaluaties op de MMstar-dataset en 0,814 op de ScienceQA-dataset, wat aangeeft dat ons framework nauw aansluit bij door mensen ontworpen benchmarks en inherente menselijke voorkeuren.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the
challenges of Visual Question Answering (VQA), sparking a new research focus on
conducting objective evaluations of these models. Existing evaluation methods
face limitations due to the significant human workload required to design Q&A
pairs for visual images, which inherently restricts the scale and scope of
evaluations. Although automated MLLM-as-judge approaches attempt to reduce the
human workload through automatic evaluations, they often introduce biases. To
address these problems, we propose an Unsupervised Peer review MLLM Evaluation
framework. It utilizes only image data, allowing models to automatically
generate questions and conduct peer review assessments of answers from other
models, effectively alleviating the reliance on human workload. Additionally,
we introduce the vision-language scoring system to mitigate the bias issues,
which focuses on three aspects: (i) response correctness; (ii) visual
understanding and reasoning; and (iii) image-text correlation. Experimental
results demonstrate that UPME achieves a Pearson correlation of 0.944 with
human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset,
indicating that our framework closely aligns with human-designed benchmarks and
inherent human preferences.