MMEvalPro: Калибровка мультимодальных бенчмарков в направлении надежной и эффективной оценки
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
June 29, 2024
Авторы: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang
cs.AI
Аннотация
Большие мультимодальные модели (LMM) проявляют впечатляющее понимание и способности к рассуждениям между модальностями, часто оцениваемые через множественный выбор (MCQ), который включает изображение, вопрос и несколько вариантов ответов. Однако многие используемые для таких оценок бенчмарки страдают от систематических искажений. Замечательно, что большие языковые модели (LLM) без каких-либо визуальных способностей восприятия достигают значительной производительности, подрывая доверие к этим оценкам. Для решения этой проблемы, сохраняя при этом эффективность оценки MCQ, мы предлагаем MMEvalPro, бенчмарк, разработанный для избежания ошибок первого рода через трехэтапную систему оценки и более строгие метрики. Для каждого изначального вопроса из существующих бенчмарков человеческие аннотаторы дополняют его, создавая вопрос восприятия и вопрос-якорь знаний через тщательный процесс аннотации. MMEvalPro включает 2 138 троек вопросов, общим числом 6 414 различных вопросов. Две трети этих вопросов помечены вручную экспертами, в то время как остальные взяты из существующих бенчмарков (MMMU, ScienceQA и MathVista). По сравнению с существующими бенчмарками, наши эксперименты с последними LLM и LMM показывают, что MMEvalPro более сложен (лучшая LMM отстает от производительности человека на 31,73%, по сравнению с средним разрывом в 8,03% в предыдущих бенчмарках) и более надежен (лучшая LLM уступает лучшей LMM на 23,09%, в то время как разрыв для предыдущих бенчмарков составляет всего 14,64%). Наш анализ подробно объясняет причину большого разрыва в производительности и обосновывает надежность оценки, подчеркивая ее значительный потенциал для продвижения будущих исследований.
English
Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding
and reasoning abilities, often assessed through multiple-choice questions
(MCQs) that include an image, a question, and several options. However, many
benchmarks used for such evaluations suffer from systematic biases. Remarkably,
Large Language Models (LLMs) without any visual perception capabilities achieve
non-trivial performance, undermining the credibility of these evaluations. To
address this issue while maintaining the efficiency of MCQ evaluations, we
propose MMEvalPro, a benchmark designed to avoid Type-I errors through a
trilogy evaluation pipeline and more rigorous metrics. For each original
question from existing benchmarks, human annotators augment it by creating one
perception question and one knowledge anchor question through a meticulous
annotation process. MMEvalPro comprises 2,138 question triplets, totaling
6,414 distinct questions. Two-thirds of these questions are manually labeled
by human experts, while the rest are sourced from existing benchmarks (MMMU,
ScienceQA, and MathVista). Compared with the existing benchmarks, our
experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more
challenging (the best LMM lags behind human performance by 31.73%, compared
to an average gap of 8.03% in previous benchmarks) and more trustworthy (the
best LLM trails the best LMM by 23.09%, whereas the gap for previous
benchmarks is just 14.64%). Our in-depth analysis explains the reason for
the large performance gap and justifies the trustworthiness of evaluation,
underscoring its significant potential for advancing future research.Summary
AI-Generated Summary