MIBench : Évaluation des modèles de langage multimodaux de grande envergure sur plusieurs images

papers.abstract

Fondés sur la puissance des LLM (Large Language Models), de nombreux modèles de langage multimodaux de grande taille (MLLMs) ont récemment obtenu des performances remarquables sur diverses tâches vision-langage à travers plusieurs benchmarks. Cependant, la plupart des MLLMs et benchmarks existants se concentrent principalement sur des scénarios d'entrée à image unique, laissant les performances des MLLMs dans la gestion d'images multiples réalistes largement inexplorées. Bien que quelques benchmarks prennent en compte plusieurs images, leurs dimensions d'évaluation et leurs échantillons sont très limités. Par conséquent, dans cet article, nous proposons un nouveau benchmark, MIBench, pour évaluer de manière exhaustive les capacités fines des MLLMs dans des scénarios multi-images. Plus précisément, MIBench catégorise les capacités multi-images en trois scénarios : instruction multi-images (MII), recherche de connaissances multimodales (MKS) et apprentissage en contexte multimodal (MIC), et construit 13 tâches avec un total de 13K échantillons annotés. Lors de la construction des données, pour MII et MKS, nous extrayons les options correctes à partir d'annotations manuelles et créons des distracteurs complexes pour obtenir des questions à choix multiples. Pour MIC, afin de permettre une évaluation approfondie, nous définissons quatre sous-tâches et transformons les jeux de données originaux en formats d'apprentissage en contexte. Nous évaluons plusieurs MLLMs open-source et close-source sur le benchmark MIBench proposé. Les résultats révèlent que bien que les modèles actuels excellent dans les tâches à image unique, ils présentent des lacunes significatives face aux entrées multi-images, telles qu'une perception fine confuse, un raisonnement multi-image limité et un apprentissage en contexte instable. Les données annotées de MIBench sont disponibles à l'adresse suivante : https://huggingface.co/datasets/StarBottle/MIBench.

English

Built on the power of LLMs, numerous multimodal large language models (MLLMs) have recently achieved remarkable performance on various vision-language tasks across multiple benchmarks. However, most existing MLLMs and benchmarks primarily focus on single-image input scenarios, leaving the performance of MLLMs when handling realistic multiple images remain underexplored. Although a few benchmarks consider multiple images, their evaluation dimensions and samples are very limited. Therefore, in this paper, we propose a new benchmark MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in multi-image scenarios. Specifically, MIBench categorizes the multi-image abilities into three scenarios: multi-image instruction (MII), multimodal knowledge-seeking (MKS) and multimodal in-context learning (MIC), and constructs 13 tasks with a total of 13K annotated samples. During data construction, for MII and MKS, we extract correct options from manual annotations and create challenging distractors to obtain multiple-choice questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and transform the original datasets into in-context learning formats. We evaluate several open-source MLLMs and close-source MLLMs on the proposed MIBench. The results reveal that although current models excel in single-image tasks, they exhibit significant shortcomings when faced with multi-image inputs, such as confused fine-grained perception, limited multi-image reasoning, and unstable in-context learning. The annotated data in MIBench is available at https://huggingface.co/datasets/StarBottle/MIBench.

MIBench : Évaluation des modèles de langage multimodaux de grande envergure sur plusieurs images

MIBench: Evaluating Multimodal Large Language Models over Multiple Images

papers.abstract

Support