MIBench: Evaluierung von Multimodalen Großen Sprachmodellen über Mehrere Bilder
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
Autoren: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Zusammenfassung
Auf der Grundlage der Leistung von LLMs haben zahlreiche multimodale große Sprachmodelle (MLLMs) in letzter Zeit bemerkenswerte Leistungen bei verschiedenen Vision-Sprach-Aufgaben über mehrere Benchmarks erzielt. Die meisten bestehenden MLLMs und Benchmarks konzentrieren sich jedoch hauptsächlich auf Szenarien mit einzelnen Bildern als Eingabe und lassen die Leistung von MLLMs bei der Verarbeitung realistischer Szenarien mit mehreren Bildern weitgehend unerforscht. Obwohl einige Benchmarks mehrere Bilder berücksichtigen, sind ihre Bewertungsdimensionen und Stichproben sehr begrenzt. Daher schlagen wir in diesem Papier einen neuen Benchmark namens MIBench vor, um die feinkörnigen Fähigkeiten von MLLMs in Multi-Bild-Szenarien umfassend zu bewerten. Speziell kategorisiert MIBench die Multi-Bild-Fähigkeiten in drei Szenarien: Multi-Bild-Anleitung (MII), multimodale Wissenssuche (MKS) und multimodales kontextbezogenes Lernen (MIC) und konstruiert 13 Aufgaben mit insgesamt 13.000 annotierten Stichproben. Bei der Datenerstellung extrahieren wir für MII und MKS korrekte Optionen aus manuellen Annotationen und erstellen anspruchsvolle Ablenkungen, um Multiple-Choice-Fragen zu erhalten. Für MIC setzen wir vier Teilaufgaben fest und transformieren die Originaldatensätze in Formate für kontextbezogenes Lernen, um eine eingehende Bewertung zu ermöglichen. Wir bewerten mehrere Open-Source MLLMs und Closed-Source MLLMs auf dem vorgeschlagenen MIBench. Die Ergebnisse zeigen, dass obwohl aktuelle Modelle in Einzelbild-Aufgaben hervorragende Leistungen erbringen, sie signifikante Schwächen aufweisen, wenn sie mit Multi-Bild-Eingaben konfrontiert werden, wie verwirrte feinkörnige Wahrnehmung, begrenztes Multi-Bild-Argumentieren und instabiles kontextbezogenes Lernen. Die annotierten Daten in MIBench sind verfügbar unter https://huggingface.co/datasets/StarBottle/MIBench.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.Summary
AI-Generated Summary