UPME: Ein unüberwachtes Peer-Review-Framework zur Bewertung multimodaler großer Sprachmodelle

papers.abstract

Multimodale Large Language Models (MLLMs) sind entstanden, um die Herausforderungen des Visual Question Answering (VQA) zu bewältigen, und haben einen neuen Forschungsschwerpunkt auf die Durchführung objektiver Bewertungen dieser Modelle gelenkt. Bestehende Evaluierungsmethoden stoßen an Grenzen, da der erhebliche menschliche Arbeitsaufwand zur Erstellung von Frage-Antwort-Paaren für visuelle Bilder den Umfang und die Reichweite der Bewertungen von Natur aus einschränkt. Obwohl automatisierte MLLM-as-Judge-Ansätze versuchen, den menschlichen Arbeitsaufwand durch automatische Bewertungen zu reduzieren, führen sie oft Verzerrungen ein. Um diese Probleme zu lösen, schlagen wir ein Unsupervised Peer Review MLLM Evaluation Framework vor. Es nutzt ausschließlich Bilddaten, wodurch Modelle automatisch Fragen generieren und Peer-Review-Bewertungen von Antworten anderer Modelle durchführen können, was die Abhängigkeit vom menschlichen Arbeitsaufwand effektiv verringert. Zusätzlich führen wir ein Vision-Language-Bewertungssystem ein, um die Verzerrungsprobleme zu mildern, das sich auf drei Aspekte konzentriert: (i) die Richtigkeit der Antwort; (ii) das visuelle Verständnis und die Schlussfolgerung; und (iii) die Bild-Text-Korrelation. Experimentelle Ergebnisse zeigen, dass UPME eine Pearson-Korrelation von 0,944 mit menschlichen Bewertungen auf dem MMstar-Datensatz und 0,814 auf dem ScienceQA-Datensatz erreicht, was darauf hindeutet, dass unser Framework eng mit von Menschen entworfenen Benchmarks und inhärenten menschlichen Präferenzen übereinstimmt.

English

Multimodal Large Language Models (MLLMs) have emerged to tackle the challenges of Visual Question Answering (VQA), sparking a new research focus on conducting objective evaluations of these models. Existing evaluation methods face limitations due to the significant human workload required to design Q&A pairs for visual images, which inherently restricts the scale and scope of evaluations. Although automated MLLM-as-judge approaches attempt to reduce the human workload through automatic evaluations, they often introduce biases. To address these problems, we propose an Unsupervised Peer review MLLM Evaluation framework. It utilizes only image data, allowing models to automatically generate questions and conduct peer review assessments of answers from other models, effectively alleviating the reliance on human workload. Additionally, we introduce the vision-language scoring system to mitigate the bias issues, which focuses on three aspects: (i) response correctness; (ii) visual understanding and reasoning; and (iii) image-text correlation. Experimental results demonstrate that UPME achieves a Pearson correlation of 0.944 with human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset, indicating that our framework closely aligns with human-designed benchmarks and inherent human preferences.

UPME: Ein unüberwachtes Peer-Review-Framework zur Bewertung multimodaler großer Sprachmodelle

UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation

papers.abstract

Support