ChatPaper.aiChatPaper

MM-Vet v2: Un Benchmark Impegnativo per Valutare le Capacità Integrate dei Modelli Multimodali di Grande Scala

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

August 1, 2024
Autori: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI

Abstract

MM-Vet, con domande aperte di visione e linguaggio mirate a valutare capacità integrate, è diventato uno dei benchmark più popolari per la valutazione di modelli multimodali di grandi dimensioni. MM-Vet valuta sei capacità fondamentali di visione e linguaggio (VL): riconoscimento, conoscenza, consapevolezza spaziale, generazione del linguaggio, OCR e matematica. Tuttavia, il formato delle sue domande è limitato a coppie singole di immagine-testo, mancando delle sequenze intercalate di immagini e testo prevalenti negli scenari del mondo reale. Per affrontare questa limitazione, introduciamo MM-Vet v2, che include una nuova capacità VL chiamata "comprensione delle sequenze immagine-testo", valutando l'abilità dei modelli di elaborare sequenze VL. Inoltre, manteniamo l'alta qualità dei campioni di valutazione mentre espandiamo ulteriormente la dimensione del set di valutazione. Utilizzando MM-Vet v2 per valutare modelli multimodali di grandi dimensioni, abbiamo scoperto che Claude 3.5 Sonnet è il miglior modello con un punteggio di 71.8, superando leggermente GPT-4o che ha ottenuto 71.0. Tra i modelli open-weight, InternVL2-Llama3-76B è in testa con un punteggio di 68.4.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called "image-text sequence understanding", evaluating models' ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.
PDF149November 28, 2024