UPME: マルチモーダル大規模言語モデル評価のための教師なしピアレビューフレームワーク
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
March 19, 2025
著者: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、視覚的質問応答(VQA)の課題に対処するために登場し、これらのモデルに対する客観的評価を行う新たな研究焦点を引き起こしています。既存の評価方法は、視覚画像に対する質問と回答のペアを設計するために必要な多大な人的作業量に制約を受け、評価の規模と範囲が本質的に制限されています。自動化されたMLLM-as-judgeアプローチは、自動評価を通じて人的作業量を削減しようと試みますが、しばしばバイアスを導入してしまいます。これらの問題に対処するため、我々は教師なしピアレビューMLLM評価フレームワークを提案します。このフレームワークは画像データのみを利用し、モデルが自動的に質問を生成し、他のモデルからの回答をピアレビュー評価することを可能にし、人的作業量への依存を効果的に軽減します。さらに、バイアス問題を緩和するために、視覚言語スコアリングシステムを導入します。このシステムは以下の3つの側面に焦点を当てています:(i) 応答の正確性、(ii) 視覚的理解と推論、(iii) 画像とテキストの関連性。実験結果は、UPMEがMMstarデータセットで人間の評価とのピアソン相関0.944、ScienceQAデータセットで0.814を達成し、我々のフレームワークが人間が設計したベンチマークと人間の本質的な選好に密接に一致していることを示しています。
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the
challenges of Visual Question Answering (VQA), sparking a new research focus on
conducting objective evaluations of these models. Existing evaluation methods
face limitations due to the significant human workload required to design Q&A
pairs for visual images, which inherently restricts the scale and scope of
evaluations. Although automated MLLM-as-judge approaches attempt to reduce the
human workload through automatic evaluations, they often introduce biases. To
address these problems, we propose an Unsupervised Peer review MLLM Evaluation
framework. It utilizes only image data, allowing models to automatically
generate questions and conduct peer review assessments of answers from other
models, effectively alleviating the reliance on human workload. Additionally,
we introduce the vision-language scoring system to mitigate the bias issues,
which focuses on three aspects: (i) response correctness; (ii) visual
understanding and reasoning; and (iii) image-text correlation. Experimental
results demonstrate that UPME achieves a Pearson correlation of 0.944 with
human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset,
indicating that our framework closely aligns with human-designed benchmarks and
inherent human preferences.Summary
AI-Generated Summary