MIBench: Evaluatie van Multimodale Grote Taalmodellen over Meerdere Afbeeldingen
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
Auteurs: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Samenvatting
Gebouwd op de kracht van LLM's (Large Language Models) hebben talrijke multimodale grote taalmodellen (MLLMs) recentelijk opmerkelijke prestaties behaald op diverse visie-taal taken over meerdere benchmarks. Echter richten de meeste bestaande MLLMs en benchmarks zich voornamelijk op scenario's met één afbeelding als invoer, waardoor de prestaties van MLLMs bij het verwerken van realistische meerdere afbeeldingen onderbelicht blijven. Hoewel enkele benchmarks meerdere afbeeldingen overwegen, zijn hun evaluatiedimensies en voorbeelden zeer beperkt. Daarom stellen wij in dit artikel een nieuwe benchmark voor, genaamd MIBench, om de fijnmazige vaardigheden van MLLMs in scenario's met meerdere afbeeldingen uitgebreid te evalueren. Specifiek categoriseert MIBench de vaardigheden met meerdere afbeeldingen in drie scenario's: instructie met meerdere afbeeldingen (MII), multimodale kenniszoektochten (MKS) en multimodaal leren in context (MIC), en construeert 13 taken met in totaal 13K geannoteerde voorbeelden. Tijdens de dataconstructie, voor MII en MKS, extraheren we correcte opties uit handmatige annotaties en creëren we uitdagende afleiders om meerkeuzevragen te verkrijgen. Voor MIC, om een diepgaande evaluatie mogelijk te maken, stellen we vier sub-taken in en transformeren we de originele datasets naar in-context leerformaten. We evalueren verschillende open-source MLLMs en closed-source MLLMs op de voorgestelde MIBench. De resultaten tonen aan dat hoewel huidige modellen uitblinken in taken met één afbeelding, ze aanzienlijke tekortkomingen vertonen wanneer ze worden geconfronteerd met invoer van meerdere afbeeldingen, zoals verwarde fijnmazige perceptie, beperkt redeneren met meerdere afbeeldingen en onstabiel leren in context. De geannoteerde data in MIBench is beschikbaar op https://huggingface.co/datasets/StarBottle/MIBench.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.