ChatPaper.aiChatPaper

MM-Vet v2 : Un benchmark exigeant pour évaluer les capacités intégrées des grands modèles multimodaux

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

August 1, 2024
Auteurs: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI

Résumé

MM-Vet, avec ses questions ouvertes en vision-langage visant à évaluer les capacités intégrées, est devenu l'un des benchmarks les plus populaires pour l'évaluation des grands modèles multimodaux. MM-Vet évalue six capacités fondamentales en vision-langage (VL) : la reconnaissance, les connaissances, la conscience spatiale, la génération de langage, la reconnaissance optique de caractères (OCR) et les mathématiques. Cependant, son format de questions se limite à des paires image-texte uniques, ne prenant pas en compte les séquences entrelacées d'images et de textes fréquentes dans les scénarios réels. Pour pallier cette limitation, nous introduisons MM-Vet v2, qui inclut une nouvelle capacité VL appelée "compréhension des séquences image-texte", évaluant la capacité des modèles à traiter des séquences VL. De plus, nous maintenons la haute qualité des échantillons d'évaluation tout en élargissant davantage la taille de l'ensemble d'évaluation. En utilisant MM-Vet v2 pour évaluer les grands modèles multimodaux, nous avons constaté que Claude 3.5 Sonnet est le meilleur modèle avec un score de 71,8, surpassant légèrement GPT-4o qui a obtenu 71,0. Parmi les modèles à poids ouvert, InternVL2-Llama3-76B se distingue avec un score de 68,4.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called "image-text sequence understanding", evaluating models' ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.

Summary

AI-Generated Summary

PDF149November 28, 2024