MIBench : Évaluation des modèles de langage multimodaux de grande envergure sur plusieurs images
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
Auteurs: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Résumé
Fondés sur la puissance des LLM (Large Language Models), de nombreux modèles de langage multimodaux de grande taille (MLLMs) ont récemment obtenu des performances remarquables sur diverses tâches vision-langage à travers plusieurs benchmarks. Cependant, la plupart des MLLMs et benchmarks existants se concentrent principalement sur des scénarios d'entrée à image unique, laissant les performances des MLLMs dans la gestion d'images multiples réalistes largement inexplorées. Bien que quelques benchmarks prennent en compte plusieurs images, leurs dimensions d'évaluation et leurs échantillons sont très limités. Par conséquent, dans cet article, nous proposons un nouveau benchmark, MIBench, pour évaluer de manière exhaustive les capacités fines des MLLMs dans des scénarios multi-images. Plus précisément, MIBench catégorise les capacités multi-images en trois scénarios : instruction multi-images (MII), recherche de connaissances multimodales (MKS) et apprentissage en contexte multimodal (MIC), et construit 13 tâches avec un total de 13K échantillons annotés. Lors de la construction des données, pour MII et MKS, nous extrayons les options correctes à partir d'annotations manuelles et créons des distracteurs complexes pour obtenir des questions à choix multiples. Pour MIC, afin de permettre une évaluation approfondie, nous définissons quatre sous-tâches et transformons les jeux de données originaux en formats d'apprentissage en contexte. Nous évaluons plusieurs MLLMs open-source et close-source sur le benchmark MIBench proposé. Les résultats révèlent que bien que les modèles actuels excellent dans les tâches à image unique, ils présentent des lacunes significatives face aux entrées multi-images, telles qu'une perception fine confuse, un raisonnement multi-image limité et un apprentissage en contexte instable. Les données annotées de MIBench sont disponibles à l'adresse suivante : https://huggingface.co/datasets/StarBottle/MIBench.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.Summary
AI-Generated Summary