MIBench: Evaluatie van Multimodale Grote Taalmodellen over Meerdere Afbeeldingen

Samenvatting

Gebouwd op de kracht van LLM's (Large Language Models) hebben talrijke multimodale grote taalmodellen (MLLMs) recentelijk opmerkelijke prestaties behaald op diverse visie-taal taken over meerdere benchmarks. Echter richten de meeste bestaande MLLMs en benchmarks zich voornamelijk op scenario's met één afbeelding als invoer, waardoor de prestaties van MLLMs bij het verwerken van realistische meerdere afbeeldingen onderbelicht blijven. Hoewel enkele benchmarks meerdere afbeeldingen overwegen, zijn hun evaluatiedimensies en voorbeelden zeer beperkt. Daarom stellen wij in dit artikel een nieuwe benchmark voor, genaamd MIBench, om de fijnmazige vaardigheden van MLLMs in scenario's met meerdere afbeeldingen uitgebreid te evalueren. Specifiek categoriseert MIBench de vaardigheden met meerdere afbeeldingen in drie scenario's: instructie met meerdere afbeeldingen (MII), multimodale kenniszoektochten (MKS) en multimodaal leren in context (MIC), en construeert 13 taken met in totaal 13K geannoteerde voorbeelden. Tijdens de dataconstructie, voor MII en MKS, extraheren we correcte opties uit handmatige annotaties en creëren we uitdagende afleiders om meerkeuzevragen te verkrijgen. Voor MIC, om een diepgaande evaluatie mogelijk te maken, stellen we vier sub-taken in en transformeren we de originele datasets naar in-context leerformaten. We evalueren verschillende open-source MLLMs en closed-source MLLMs op de voorgestelde MIBench. De resultaten tonen aan dat hoewel huidige modellen uitblinken in taken met één afbeelding, ze aanzienlijke tekortkomingen vertonen wanneer ze worden geconfronteerd met invoer van meerdere afbeeldingen, zoals verwarde fijnmazige perceptie, beperkt redeneren met meerdere afbeeldingen en onstabiel leren in context. De geannoteerde data in MIBench is beschikbaar op https://huggingface.co/datasets/StarBottle/MIBench.

English

Built on the power of LLMs, numerous multimodal large language models (MLLMs) have recently achieved remarkable performance on various vision-language tasks across multiple benchmarks. However, most existing MLLMs and benchmarks primarily focus on single-image input scenarios, leaving the performance of MLLMs when handling realistic multiple images remain underexplored. Although a few benchmarks consider multiple images, their evaluation dimensions and samples are very limited. Therefore, in this paper, we propose a new benchmark MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in multi-image scenarios. Specifically, MIBench categorizes the multi-image abilities into three scenarios: multi-image instruction (MII), multimodal knowledge-seeking (MKS) and multimodal in-context learning (MIC), and constructs 13 tasks with a total of 13K annotated samples. During data construction, for MII and MKS, we extract correct options from manual annotations and create challenging distractors to obtain multiple-choice questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and transform the original datasets into in-context learning formats. We evaluate several open-source MLLMs and close-source MLLMs on the proposed MIBench. The results reveal that although current models excel in single-image tasks, they exhibit significant shortcomings when faced with multi-image inputs, such as confused fine-grained perception, limited multi-image reasoning, and unstable in-context learning. The annotated data in MIBench is available at https://huggingface.co/datasets/StarBottle/MIBench.

MIBench: Evaluatie van Multimodale Grote Taalmodellen over Meerdere Afbeeldingen

MIBench: Evaluating Multimodal Large Language Models over Multiple Images

Samenvatting

Support