MIBench: Evaluación de Modelos de Lenguaje Multimodal de Gran Escala sobre Múltiples Imágenes
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
Autores: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Resumen
Basados en el poder de los Modelos de Lenguaje Multimodales (MLMs), numerosos modelos de lenguaje multimodales grandes (MLLMs) han logrado recientemente un rendimiento notable en diversas tareas de visión y lenguaje en múltiples puntos de referencia. Sin embargo, la mayoría de los MLLMs y puntos de referencia existentes se centran principalmente en escenarios de entrada de una sola imagen, dejando sin explorar el rendimiento de los MLLMs al manejar múltiples imágenes realistas. Aunque algunos puntos de referencia consideran múltiples imágenes, sus dimensiones de evaluación y muestras son muy limitadas. Por lo tanto, en este documento, proponemos un nuevo punto de referencia, MIBench, para evaluar exhaustivamente las habilidades detalladas de los MLLMs en escenarios de múltiples imágenes. Específicamente, MIBench categoriza las habilidades de múltiples imágenes en tres escenarios: instrucción de múltiples imágenes (MII), búsqueda de conocimiento multimodal (MKS) y aprendizaje multimodal en contexto (MIC), y construye 13 tareas con un total de 13 mil muestras anotadas. Durante la construcción de datos, para MII y MKS, extraemos opciones correctas de anotaciones manuales y creamos distracciones desafiantes para obtener preguntas de opción múltiple. Para MIC, para permitir una evaluación profunda, establecemos cuatro sub-tareas y transformamos los conjuntos de datos originales en formatos de aprendizaje en contexto. Evaluamos varios MLLMs de código abierto y de código cerrado en el MIBench propuesto. Los resultados revelan que aunque los modelos actuales sobresalen en tareas de una sola imagen, muestran deficiencias significativas cuando se enfrentan a entradas de múltiples imágenes, como percepción detallada confusa, razonamiento limitado de múltiples imágenes y aprendizaje inestable en contexto. Los datos anotados en MIBench están disponibles en https://huggingface.co/datasets/StarBottle/MIBench.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.