MIBench: Valutazione dei Modelli Linguistici Multimodali di Grande Scala su Immagini Multiple
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
Autori: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Abstract
Basandosi sulla potenza dei LLM, numerosi modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno recentemente ottenuto prestazioni notevoli in vari compiti di visione e linguaggio su più benchmark. Tuttavia, la maggior parte degli MLLM e dei benchmark esistenti si concentra principalmente su scenari di input con singole immagini, lasciando ancora poco esplorate le prestazioni degli MLLM quando devono gestire immagini multiple realistiche. Sebbene alcuni benchmark considerino immagini multiple, le loro dimensioni di valutazione e i campioni sono molto limitati. Pertanto, in questo articolo, proponiamo un nuovo benchmark, MIBench, per valutare in modo completo le capacità dettagliate degli MLLM in scenari con immagini multiple. Nello specifico, MIBench categorizza le abilità relative alle immagini multiple in tre scenari: istruzione con immagini multiple (MII), ricerca di conoscenza multimodale (MKS) e apprendimento in contesto multimodale (MIC), e costruisce 13 task con un totale di 13K campioni annotati. Durante la costruzione dei dati, per MII e MKS, estraiamo opzioni corrette da annotazioni manuali e creiamo distrattori impegnativi per ottenere domande a scelta multipla. Per MIC, per consentire una valutazione approfondita, impostiamo quattro sotto-task e trasformiamo i dataset originali in formati di apprendimento in contesto. Valutiamo diversi MLLM open-source e closed-source sul benchmark MIBench proposto. I risultati rivelano che, sebbene i modelli attuali eccellano nei task con singole immagini, mostrano carenze significative quando si confrontano con input di immagini multiple, come una percezione fine-grain confusa, un ragionamento limitato su immagini multiple e un apprendimento in contesto instabile. I dati annotati in MIBench sono disponibili su https://huggingface.co/datasets/StarBottle/MIBench.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.