UPME: Ein unüberwachtes Peer-Review-Framework zur Bewertung multimodaler großer Sprachmodelle
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
March 19, 2025
Autoren: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) sind entstanden, um die Herausforderungen des Visual Question Answering (VQA) zu bewältigen, und haben einen neuen Forschungsschwerpunkt auf die Durchführung objektiver Bewertungen dieser Modelle gelenkt. Bestehende Evaluierungsmethoden stoßen an Grenzen, da der erhebliche menschliche Arbeitsaufwand zur Erstellung von Frage-Antwort-Paaren für visuelle Bilder den Umfang und die Reichweite der Bewertungen von Natur aus einschränkt. Obwohl automatisierte MLLM-as-Judge-Ansätze versuchen, den menschlichen Arbeitsaufwand durch automatische Bewertungen zu reduzieren, führen sie oft Verzerrungen ein. Um diese Probleme zu lösen, schlagen wir ein Unsupervised Peer Review MLLM Evaluation Framework vor. Es nutzt ausschließlich Bilddaten, wodurch Modelle automatisch Fragen generieren und Peer-Review-Bewertungen von Antworten anderer Modelle durchführen können, was die Abhängigkeit vom menschlichen Arbeitsaufwand effektiv verringert. Zusätzlich führen wir ein Vision-Language-Bewertungssystem ein, um die Verzerrungsprobleme zu mildern, das sich auf drei Aspekte konzentriert: (i) die Richtigkeit der Antwort; (ii) das visuelle Verständnis und die Schlussfolgerung; und (iii) die Bild-Text-Korrelation. Experimentelle Ergebnisse zeigen, dass UPME eine Pearson-Korrelation von 0,944 mit menschlichen Bewertungen auf dem MMstar-Datensatz und 0,814 auf dem ScienceQA-Datensatz erreicht, was darauf hindeutet, dass unser Framework eng mit von Menschen entworfenen Benchmarks und inhärenten menschlichen Präferenzen übereinstimmt.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the
challenges of Visual Question Answering (VQA), sparking a new research focus on
conducting objective evaluations of these models. Existing evaluation methods
face limitations due to the significant human workload required to design Q&A
pairs for visual images, which inherently restricts the scale and scope of
evaluations. Although automated MLLM-as-judge approaches attempt to reduce the
human workload through automatic evaluations, they often introduce biases. To
address these problems, we propose an Unsupervised Peer review MLLM Evaluation
framework. It utilizes only image data, allowing models to automatically
generate questions and conduct peer review assessments of answers from other
models, effectively alleviating the reliance on human workload. Additionally,
we introduce the vision-language scoring system to mitigate the bias issues,
which focuses on three aspects: (i) response correctness; (ii) visual
understanding and reasoning; and (iii) image-text correlation. Experimental
results demonstrate that UPME achieves a Pearson correlation of 0.944 with
human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset,
indicating that our framework closely aligns with human-designed benchmarks and
inherent human preferences.Summary
AI-Generated Summary