MM-Vet v2: Un desafiante benchmark para evaluar grandes modelos multimodales para capacidades integradas
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities
August 1, 2024
Autores: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI
Resumen
MM-Vet, con preguntas de visión-idioma abiertas dirigidas a evaluar capacidades integradas, se ha convertido en uno de los benchmarks más populares para la evaluación de modelos multimodales grandes. MM-Vet evalúa seis capacidades centrales de visión-idioma (VL): reconocimiento, conocimiento, conciencia espacial, generación de lenguaje, OCR y matemáticas. Sin embargo, su formato de pregunta está restringido a pares de imagen-texto individuales, careciendo de las secuencias de imagen y texto entrelazadas predominantes en escenarios del mundo real. Para abordar esta limitación, presentamos MM-Vet v2, que incluye una nueva capacidad de VL llamada "comprensión de secuencias de imagen-texto", evaluando la capacidad de los modelos para procesar secuencias de VL. Además, mantenemos la alta calidad de las muestras de evaluación mientras ampliamos aún más el tamaño del conjunto de evaluación. Al utilizar MM-Vet v2 para comparar grandes modelos multimodales, encontramos que Claude 3.5 Sonnet es el mejor modelo con una puntuación de 71.8, superando ligeramente a GPT-4o que obtuvo 71.0. Entre los modelos de peso abierto, InternVL2-Llama3-76B lidera con una puntuación de 68.4.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating
integrated capabilities, has become one of the most popular benchmarks for
large multimodal model evaluation. MM-Vet assesses six core vision-language
(VL) capabilities: recognition, knowledge, spatial awareness, language
generation, OCR, and math. However, its question format is restricted to single
image-text pairs, lacking the interleaved image and text sequences prevalent in
real-world scenarios. To address this limitation, we introduce MM-Vet v2, which
includes a new VL capability called "image-text sequence understanding",
evaluating models' ability to process VL sequences. Furthermore, we maintain
the high quality of evaluation samples while further expanding the evaluation
set size. Using MM-Vet v2 to benchmark large multimodal models, we found that
Claude 3.5 Sonnet is the best model with a score of 71.8, slightly
outperforming GPT-4o which scored 71.0. Among open-weight models,
InternVL2-Llama3-76B leads with a score of 68.4.Summary
AI-Generated Summary