UPME : Un cadre d'évaluation par les pairs non supervisé pour les modèles de langage multimodaux de grande envergure
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
March 19, 2025
Auteurs: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLM) ont émergé pour relever les défis du question-réponse visuel (VQA), suscitant un nouvel axe de recherche sur l'évaluation objective de ces modèles. Les méthodes d'évaluation existantes présentent des limitations en raison de la charge de travail humaine importante nécessaire pour concevoir des paires de questions-réponses pour des images visuelles, ce qui restreint intrinsèquement l'échelle et la portée des évaluations. Bien que les approches automatisées de type MLLM-comme-juge tentent de réduire la charge de travail humaine grâce à des évaluations automatiques, elles introduisent souvent des biais. Pour résoudre ces problèmes, nous proposons un cadre d'évaluation non supervisé par examen par les pairs des MLLM. Ce cadre utilise uniquement des données d'images, permettant aux modèles de générer automatiquement des questions et de réaliser des évaluations par les pairs des réponses d'autres modèles, réduisant ainsi efficacement la dépendance à la charge de travail humaine. De plus, nous introduisons un système de notation vision-langage pour atténuer les problèmes de biais, en se concentrant sur trois aspects : (i) la justesse des réponses ; (ii) la compréhension et le raisonnement visuels ; et (iii) la corrélation image-texte. Les résultats expérimentaux montrent que UPME atteint une corrélation de Pearson de 0,944 avec les évaluations humaines sur le jeu de données MMstar et de 0,814 sur le jeu de données ScienceQA, indiquant que notre cadre s'aligne étroitement avec les benchmarks conçus par l'homme et les préférences humaines inhérentes.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the
challenges of Visual Question Answering (VQA), sparking a new research focus on
conducting objective evaluations of these models. Existing evaluation methods
face limitations due to the significant human workload required to design Q&A
pairs for visual images, which inherently restricts the scale and scope of
evaluations. Although automated MLLM-as-judge approaches attempt to reduce the
human workload through automatic evaluations, they often introduce biases. To
address these problems, we propose an Unsupervised Peer review MLLM Evaluation
framework. It utilizes only image data, allowing models to automatically
generate questions and conduct peer review assessments of answers from other
models, effectively alleviating the reliance on human workload. Additionally,
we introduce the vision-language scoring system to mitigate the bias issues,
which focuses on three aspects: (i) response correctness; (ii) visual
understanding and reasoning; and (iii) image-text correlation. Experimental
results demonstrate that UPME achieves a Pearson correlation of 0.944 with
human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset,
indicating that our framework closely aligns with human-designed benchmarks and
inherent human preferences.Summary
AI-Generated Summary