UPME: Беспристрастная система оценки мультимодальных крупных языковых моделей на основе взаимного рецензирования
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
March 19, 2025
Авторы: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) появились для решения задач визуального ответа на вопросы (VQA), что стимулировало новое направление исследований, связанное с проведением объективной оценки этих моделей. Существующие методы оценки сталкиваются с ограничениями из-за значительной нагрузки на человека, необходимой для разработки пар вопросов и ответов для визуальных изображений, что существенно ограничивает масштаб и охват оценок. Хотя автоматизированные подходы MLLM-as-judge пытаются снизить нагрузку на человека за счет автоматических оценок, они часто вносят предвзятость. Для решения этих проблем мы предлагаем фреймворк Unsupervised Peer review MLLM Evaluation (UPME). Он использует только данные изображений, позволяя моделям автоматически генерировать вопросы и проводить взаимную оценку ответов других моделей, эффективно снижая зависимость от человеческого труда. Кроме того, мы вводим систему оценки визуально-языковых аспектов для смягчения проблем предвзятости, которая фокусируется на трех аспектах: (i) правильность ответа; (ii) визуальное понимание и рассуждение; (iii) корреляция изображения и текста. Экспериментальные результаты показывают, что UPME достигает коэффициента корреляции Пирсона 0,944 с человеческими оценками на наборе данных MMstar и 0,814 на наборе данных ScienceQA, что свидетельствует о тесном соответствии нашего фреймворка с эталонами, разработанными человеком, и его внутренними предпочтениями.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the
challenges of Visual Question Answering (VQA), sparking a new research focus on
conducting objective evaluations of these models. Existing evaluation methods
face limitations due to the significant human workload required to design Q&A
pairs for visual images, which inherently restricts the scale and scope of
evaluations. Although automated MLLM-as-judge approaches attempt to reduce the
human workload through automatic evaluations, they often introduce biases. To
address these problems, we propose an Unsupervised Peer review MLLM Evaluation
framework. It utilizes only image data, allowing models to automatically
generate questions and conduct peer review assessments of answers from other
models, effectively alleviating the reliance on human workload. Additionally,
we introduce the vision-language scoring system to mitigate the bias issues,
which focuses on three aspects: (i) response correctness; (ii) visual
understanding and reasoning; and (iii) image-text correlation. Experimental
results demonstrate that UPME achieves a Pearson correlation of 0.944 with
human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset,
indicating that our framework closely aligns with human-designed benchmarks and
inherent human preferences.Summary
AI-Generated Summary