ChatPaper.aiChatPaper

MMEvalPro: 신뢰할 수 있고 효율적인 평가를 위한 멀티모달 벤치마크 보정

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

June 29, 2024
저자: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI

초록

대규모 멀티모달 모델(LMMs)은 이미지, 질문, 그리고 여러 선택지로 구성된 객관식 문제(MCQs)를 통해 평가되는 인상적인 크로스모달 이해 및 추론 능력을 보여줍니다. 그러나 이러한 평가에 사용되는 많은 벤치마크는 체계적인 편향을 겪고 있습니다. 특히, 시각적 인식 능력이 전혀 없는 대규모 언어 모델(LLMs)이 상당한 성능을 달성함으로써 이러한 평가의 신뢰성을 훼손하고 있습니다. 이 문제를 해결하면서도 MCQ 평가의 효율성을 유지하기 위해, 우리는 트릴로지 평가 파이프라인과 더 엄격한 메트릭을 통해 Type-I 오류를 피하도록 설계된 벤치마크인 MMEvalPro를 제안합니다. 기존 벤치마크의 각 원본 질문에 대해, 인간 주석자는 세심한 주석 과정을 통해 하나의 인식 질문과 하나의 지식 앵커 질문을 생성하여 이를 보강합니다. MMEvalPro는 2,138개의 질문 트리플렛으로 구성되어 있으며, 총 6,414개의 독특한 질문을 포함합니다. 이 질문들 중 3분의 2는 인간 전문가가 수동으로 레이블을 지정했으며, 나머지는 기존 벤치마크(MMMU, ScienceQA, MathVista)에서 가져왔습니다. 기존 벤치마크와 비교하여, 최신 LLMs와 LMMs를 사용한 실험 결과 MMEvalPro가 더 도전적이며(최고의 LMM이 인간 성능에 비해 31.73% 뒤처지는 반면, 이전 벤치마크에서는 평균 8.03% 차이), 더 신뢰할 수 있음을 보여줍니다(최고의 LLM이 최고의 LMM에 비해 23.09% 뒤처지는 반면, 이전 벤치마크에서는 단 14.64% 차이). 우리의 심층 분석은 큰 성능 격차의 이유를 설명하고 평가의 신뢰성을 정당화하며, 이는 향후 연구를 발전시키는 데 있어 상당한 잠재력을 강조합니다.
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding and reasoning abilities, often assessed through multiple-choice questions (MCQs) that include an image, a question, and several options. However, many benchmarks used for such evaluations suffer from systematic biases. Remarkably, Large Language Models (LLMs) without any visual perception capabilities achieve non-trivial performance, undermining the credibility of these evaluations. To address this issue while maintaining the efficiency of MCQ evaluations, we propose MMEvalPro, a benchmark designed to avoid Type-I errors through a trilogy evaluation pipeline and more rigorous metrics. For each original question from existing benchmarks, human annotators augment it by creating one perception question and one knowledge anchor question through a meticulous annotation process. MMEvalPro comprises 2,138 question triplets, totaling 6,414 distinct questions. Two-thirds of these questions are manually labeled by human experts, while the rest are sourced from existing benchmarks (MMMU, ScienceQA, and MathVista). Compared with the existing benchmarks, our experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more challenging (the best LMM lags behind human performance by 31.73%, compared to an average gap of 8.03% in previous benchmarks) and more trustworthy (the best LLM trails the best LMM by 23.09%, whereas the gap for previous benchmarks is just 14.64%). Our in-depth analysis explains the reason for the large performance gap and justifies the trustworthiness of evaluation, underscoring its significant potential for advancing future research.

Summary

AI-Generated Summary

PDF372November 28, 2024