ChatPaper.aiChatPaper

MM-Vet v2: Een uitdagende benchmark voor het evalueren van grote multimodale modellen op geïntegreerde capaciteiten

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

August 1, 2024
Auteurs: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI

Samenvatting

MM-Vet, met open-einde visueel-taalkundige vragen gericht op het evalueren van geïntegreerde capaciteiten, is een van de meest populaire benchmarks geworden voor de evaluatie van grote multimodale modellen. MM-Vet beoordeelt zes kernvisueel-taalkundige (VL) capaciteiten: herkenning, kennis, ruimtelijk bewustzijn, taalgeneratie, OCR en rekenen. Het vraagformaat is echter beperkt tot enkele beeld-tekstparen, waardoor het ontbreekt aan de afwisselende beeld- en tekstreeksen die veel voorkomen in real-world scenario's. Om deze beperking aan te pakken, introduceren we MM-Vet v2, dat een nieuwe VL-capaciteit bevat genaamd "beeld-tekstreeksbegrip", waarmee het vermogen van modellen om VL-reeksen te verwerken wordt geëvalueerd. Bovendien behouden we de hoge kwaliteit van de evaluatiemonsters terwijl we de omvang van de evaluatieset verder uitbreiden. Door MM-Vet v2 te gebruiken om grote multimodale modellen te benchmarken, ontdekten we dat Claude 3.5 Sonnet het beste model is met een score van 71,8, wat iets beter is dan GPT-4o dat een score van 71,0 behaalde. Onder de open-weight modellen leidt InternVL2-Llama3-76B met een score van 68,4.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called "image-text sequence understanding", evaluating models' ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.
PDF139February 7, 2026