ChatPaper.aiChatPaper

MM-Vet v2: Ein anspruchsvoller Benchmark zur Bewertung großer multimodaler Modelle für integrierte Fähigkeiten

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

August 1, 2024
Autoren: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI

Zusammenfassung

MM-Vet, mit offenen vision-sprachlichen Fragen zur Bewertung integrierter Fähigkeiten, ist zu einem der beliebtesten Benchmarks für die Evaluierung großer multimodaler Modelle geworden. MM-Vet bewertet sechs Kernfähigkeiten in der Vision-Sprache (VL): Erkennung, Wissen, räumliches Bewusstsein, Sprachgenerierung, OCR und Mathematik. Allerdings ist das Frageformat auf einzelne Bild-Text-Paare beschränkt und fehlt die durchmischten Bild- und Textsequenzen, die in realen Szenarien weit verbreitet sind. Um diese Einschränkung zu beheben, stellen wir MM-Vet v2 vor, das eine neue VL-Fähigkeit namens "Bild-Text-Sequenzverständnis" umfasst, um die Fähigkeit von Modellen zur Verarbeitung von VL-Sequenzen zu bewerten. Darüber hinaus erhalten wir die hohe Qualität der Bewertungsbeispiele aufrecht und erweitern gleichzeitig die Größe des Bewertungssatzes. Bei der Verwendung von MM-Vet v2 zur Bewertung großer multimodaler Modelle haben wir festgestellt, dass Claude 3.5 Sonnet das beste Modell mit einer Punktzahl von 71,8 ist, das knapp GPT-4o übertrifft, das 71,0 Punkte erzielt hat. Unter den Open-Weight-Modellen führt InternVL2-Llama3-76B mit einer Punktzahl von 68,4.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called "image-text sequence understanding", evaluating models' ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.

Summary

AI-Generated Summary

PDF149November 28, 2024