UPME: 다중모드 대규모 언어 모델 평가를 위한 비지도 동료 평가 프레임워크
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
March 19, 2025
저자: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI
초록
다중모달 대형 언어 모델(MLLMs)은 시각적 질의응답(VQA)의 도전 과제를 해결하기 위해 등장했으며, 이러한 모델에 대한 객관적 평가를 수행하는 새로운 연구 분야를 촉발시켰습니다. 기존의 평가 방법은 시각적 이미지에 대한 질문-답변 쌍을 설계하는 데 필요한 상당한 인간의 작업량으로 인해 한계에 직면해 있으며, 이는 평가의 규모와 범위를 본질적으로 제한합니다. 자동화된 MLLM-as-judge 접근법은 자동 평가를 통해 인간의 작업량을 줄이려고 시도하지만, 종종 편향을 유발합니다. 이러한 문제를 해결하기 위해, 우리는 비지도 동료 검토 MLLM 평가 프레임워크를 제안합니다. 이 프레임워크는 이미지 데이터만을 활용하여 모델이 자동으로 질문을 생성하고 다른 모델의 답변에 대해 동료 검토 평가를 수행할 수 있도록 하여, 인간의 작업량에 대한 의존을 효과적으로 완화합니다. 또한, 우리는 편향 문제를 완화하기 위해 시각-언어 채점 시스템을 도입했습니다. 이 시스템은 (i) 응답의 정확성, (ii) 시각적 이해와 추론, (iii) 이미지-텍스트 상관관계라는 세 가지 측면에 초점을 맞춥니다. 실험 결과는 UPME가 MMstar 데이터셋에서 인간 평가와 0.944의 피어슨 상관관계를, ScienceQA 데이터셋에서 0.814의 상관관계를 달성함을 보여주며, 이는 우리의 프레임워크가 인간이 설계한 벤치마크와 본질적인 인간의 선호도와 밀접하게 일치함을 나타냅니다.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the
challenges of Visual Question Answering (VQA), sparking a new research focus on
conducting objective evaluations of these models. Existing evaluation methods
face limitations due to the significant human workload required to design Q&A
pairs for visual images, which inherently restricts the scale and scope of
evaluations. Although automated MLLM-as-judge approaches attempt to reduce the
human workload through automatic evaluations, they often introduce biases. To
address these problems, we propose an Unsupervised Peer review MLLM Evaluation
framework. It utilizes only image data, allowing models to automatically
generate questions and conduct peer review assessments of answers from other
models, effectively alleviating the reliance on human workload. Additionally,
we introduce the vision-language scoring system to mitigate the bias issues,
which focuses on three aspects: (i) response correctness; (ii) visual
understanding and reasoning; and (iii) image-text correlation. Experimental
results demonstrate that UPME achieves a Pearson correlation of 0.944 with
human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset,
indicating that our framework closely aligns with human-designed benchmarks and
inherent human preferences.Summary
AI-Generated Summary