MM-Vet v2: Сложный бенчмарк для оценки больших мультимодальных моделей для интегрированных возможностей

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

August 1, 2024
Авторы: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI

Аннотация

MM-Vet, с открытыми вопросами на языке зрения, направленными на оценку интегрированных возможностей, стал одним из самых популярных бенчмарков для оценки крупных мультимодальных моделей. MM-Vet оценивает шесть основных возможностей визуально-языковых (VL) моделей: распознавание, знание, пространственное восприятие, генерация языка, OCR и математика. Однако его формат вопросов ограничен одиночными парами изображение-текст, лишенными переплетенных последовательностей изображений и текста, характерных для реальных сценариев. Для преодоления этого ограничения мы представляем MM-Vet v2, который включает новую возможность VL под названием "понимание последовательности изображений и текста", оценивающую способность моделей обрабатывать последовательности VL. Более того, мы сохраняем высокое качество образцов оценки, дополнительно расширяя размер набора оценки. Используя MM-Vet v2 для оценки крупных мультимодальных моделей, мы обнаружили, что модель Claude 3.5 Sonnet является лучшей с результатом 71.8, незначительно превосходя GPT-4o, который набрал 71.0. Среди моделей с открытым весом InternVL2-Llama3-76B лидирует с результатом 68.4.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called "image-text sequence understanding", evaluating models' ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.

Summary

AI-Generated Summary

PDF149November 28, 2024