ChatPaper.aiChatPaper

MMEvalPro:信頼性と効率性を重視したマルチモーダルベンチマークの較正

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

June 29, 2024
著者: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI

要旨

大規模マルチモーダルモデル(LMMs)は、画像、質問、および複数の選択肢を含む多肢選択問題(MCQs)を通じて評価されることが多い、印象的なクロスモーダル理解と推論能力を示します。しかし、そのような評価に使用される多くのベンチマークは、体系的なバイアスに悩まされています。驚くべきことに、視覚的知覚能力を持たない大規模言語モデル(LLMs)でも、非自明な性能を達成し、これらの評価の信頼性を損なっています。この問題に対処しつつ、MCQ評価の効率を維持するために、我々はMMEvalProを提案します。これは、三部構成の評価パイプラインとより厳格なメトリクスを通じて、タイプIエラーを回避するように設計されたベンチマークです。既存のベンチマークからの各オリジナル質問に対して、人間のアノテーターが、慎重なアノテーションプロセスを通じて、1つの知覚質問と1つの知識アンカー質問を作成することで拡張します。MMEvalProは、2,138の質問トリプレットからなり、合計6,414の異なる質問を含みます。これらの質問の3分の2は人間の専門家によって手動でラベル付けされ、残りは既存のベンチマーク(MMMU、ScienceQA、MathVista)から引用されています。既存のベンチマークと比較して、最新のLLMsとLMMsを用いた我々の実験は、MMEvalProがより挑戦的(最良のLMMは人間の性能に31.73%遅れをとり、以前のベンチマークでの平均ギャップは8.03%)で、より信頼性が高い(最良のLLMは最良のLMMに23.09%遅れをとり、以前のベンチマークでのギャップはわずか14.64%)ことを示しています。我々の詳細な分析は、大きな性能ギャップの理由を説明し、評価の信頼性を正当化し、将来の研究を進めるための重要な潜在性を強調しています。
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding and reasoning abilities, often assessed through multiple-choice questions (MCQs) that include an image, a question, and several options. However, many benchmarks used for such evaluations suffer from systematic biases. Remarkably, Large Language Models (LLMs) without any visual perception capabilities achieve non-trivial performance, undermining the credibility of these evaluations. To address this issue while maintaining the efficiency of MCQ evaluations, we propose MMEvalPro, a benchmark designed to avoid Type-I errors through a trilogy evaluation pipeline and more rigorous metrics. For each original question from existing benchmarks, human annotators augment it by creating one perception question and one knowledge anchor question through a meticulous annotation process. MMEvalPro comprises 2,138 question triplets, totaling 6,414 distinct questions. Two-thirds of these questions are manually labeled by human experts, while the rest are sourced from existing benchmarks (MMMU, ScienceQA, and MathVista). Compared with the existing benchmarks, our experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more challenging (the best LMM lags behind human performance by 31.73%, compared to an average gap of 8.03% in previous benchmarks) and more trustworthy (the best LLM trails the best LMM by 23.09%, whereas the gap for previous benchmarks is just 14.64%). Our in-depth analysis explains the reason for the large performance gap and justifies the trustworthiness of evaluation, underscoring its significant potential for advancing future research.

Summary

AI-Generated Summary

PDF372November 28, 2024