MM-Vet v2: Um Desafiador Benchmark para Avaliar Modelos Multimodais Grandes para Capacidades Integradas
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities
August 1, 2024
Autores: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI
Resumo
O MM-Vet, com perguntas de visão e linguagem abertas destinadas a avaliar capacidades integradas, tornou-se um dos benchmarks mais populares para a avaliação de modelos multimodais grandes. O MM-Vet avalia seis capacidades principais de visão e linguagem (VL): reconhecimento, conhecimento, consciência espacial, geração de linguagem, OCR e matemática. No entanto, o formato das perguntas é restrito a pares de imagem e texto únicos, faltando as sequências de imagem e texto entrelaçadas prevalentes em cenários do mundo real. Para lidar com essa limitação, introduzimos o MM-Vet v2, que inclui uma nova capacidade VL chamada "compreensão de sequências de imagem e texto", avaliando a capacidade dos modelos de processar sequências de VL. Além disso, mantemos a alta qualidade das amostras de avaliação enquanto expandimos ainda mais o tamanho do conjunto de avaliação. Ao usar o MM-Vet v2 para avaliar grandes modelos multimodais, descobrimos que o Claude 3.5 Sonnet é o melhor modelo com uma pontuação de 71,8, superando ligeiramente o GPT-4o, que obteve 71,0. Entre os modelos de peso aberto, o InternVL2-Llama3-76B lidera com uma pontuação de 68,4.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating
integrated capabilities, has become one of the most popular benchmarks for
large multimodal model evaluation. MM-Vet assesses six core vision-language
(VL) capabilities: recognition, knowledge, spatial awareness, language
generation, OCR, and math. However, its question format is restricted to single
image-text pairs, lacking the interleaved image and text sequences prevalent in
real-world scenarios. To address this limitation, we introduce MM-Vet v2, which
includes a new VL capability called "image-text sequence understanding",
evaluating models' ability to process VL sequences. Furthermore, we maintain
the high quality of evaluation samples while further expanding the evaluation
set size. Using MM-Vet v2 to benchmark large multimodal models, we found that
Claude 3.5 Sonnet is the best model with a score of 71.8, slightly
outperforming GPT-4o which scored 71.0. Among open-weight models,
InternVL2-Llama3-76B leads with a score of 68.4.Summary
AI-Generated Summary