MIBench: Avaliando Modelos de Linguagem Multimodais de Grande Escala em Múltiplas Imagens
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
Autores: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Resumo
Construídos com base no poder dos LLMs, numerosos modelos de linguagem multimodais de grande porte (MLLMs) alcançaram recentemente desempenhos notáveis em várias tarefas de visão e linguagem em diversos benchmarks. No entanto, a maioria dos MLLMs e benchmarks existentes focam principalmente em cenários de entrada de imagens únicas, deixando o desempenho dos MLLMs ao lidar com múltiplas imagens realistas ainda pouco explorado. Embora alguns benchmarks considerem múltiplas imagens, suas dimensões de avaliação e amostras são muito limitadas. Portanto, neste artigo, propomos um novo benchmark, o MIBench, para avaliar de forma abrangente as habilidades detalhadas dos MLLMs em cenários de múltiplas imagens. Especificamente, o MIBench categoriza as habilidades de múltiplas imagens em três cenários: instrução de múltiplas imagens (MII), busca de conhecimento multimodal (MKS) e aprendizado multimodal em contexto (MIC), e constrói 13 tarefas com um total de 13 mil amostras anotadas. Durante a construção dos dados, para MII e MKS, extraímos opções corretas de anotações manuais e criamos distratores desafiadores para obter questões de múltipla escolha. Para o MIC, a fim de possibilitar uma avaliação aprofundada, estabelecemos quatro subtarefas e transformamos os conjuntos de dados originais em formatos de aprendizado em contexto. Avaliamos diversos MLLMs de código aberto e de código fechado no MIBench proposto. Os resultados revelam que, embora os modelos atuais se destaquem em tarefas de imagem única, apresentam deficiências significativas quando confrontados com entradas de múltiplas imagens, como percepção detalhada confusa, raciocínio limitado de múltiplas imagens e aprendizado instável em contexto. Os dados anotados no MIBench estão disponíveis em https://huggingface.co/datasets/StarBottle/MIBench.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.