MMIE: Conjunto de Evaluación Masivo Multimodal Entrelazado para Modelos de Visión-Lenguaje Grandes
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
October 14, 2024
Autores: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI
Resumen
La comprensión y generación multimodal entrelazada, que permite a los modelos producir e interpretar tanto imágenes como texto en secuencias arbitrarias, se ha convertido en un área fundamental en el aprendizaje multimodal. A pesar de los avances significativos, la evaluación de esta capacidad sigue siendo insuficiente. Los benchmarks existentes sufren de limitaciones en escala de datos, alcance y profundidad de evaluación, mientras que las métricas de evaluación actuales suelen ser costosas o sesgadas, careciendo de fiabilidad para aplicaciones prácticas. Para abordar estos desafíos, presentamos MMIE, un benchmark intensivo en conocimiento a gran escala para evaluar la comprensión y generación multimodal entrelazada en Modelos de Lenguaje-Visión Grandes (LVLMs). MMIE consta de 20K consultas multimodales meticulosamente seleccionadas, abarcando 3 categorías, 12 campos y 102 subcampos, que incluyen matemáticas, programación, física, literatura, salud y artes. Admite tanto entradas como salidas entrelazadas, ofreciendo una combinación de formatos de pregunta de opción múltiple y abierta para evaluar diversas competencias. Además, proponemos una métrica de evaluación automatizada confiable, aprovechando un modelo de puntuación ajustado con datos anotados por humanos y criterios de evaluación sistemáticos, con el objetivo de reducir el sesgo y mejorar la precisión de la evaluación. Experimentos extensos demuestran la eficacia de nuestro benchmark y métricas al proporcionar una evaluación integral de los LVLMs entrelazados. Específicamente, evaluamos ocho LVLMs, revelando que incluso los mejores modelos muestran un margen significativo para mejorar, con la mayoría logrando solo resultados moderados. Creemos que MMIE impulsará nuevos avances en el desarrollo de LVLMs entrelazados. Publicamos nuestro benchmark y código en https://mmie-bench.github.io/.
English
Interleaved multimodal comprehension and generation, enabling models to
produce and interpret both images and text in arbitrary sequences, have become
a pivotal area in multimodal learning. Despite significant advancements, the
evaluation of this capability remains insufficient. Existing benchmarks suffer
from limitations in data scale, scope, and evaluation depth, while current
evaluation metrics are often costly or biased, lacking in reliability for
practical applications. To address these challenges, we introduce MMIE, a
large-scale knowledge-intensive benchmark for evaluating interleaved multimodal
comprehension and generation in Large Vision-Language Models (LVLMs). MMIE
comprises 20K meticulously curated multimodal queries, spanning 3 categories,
12 fields, and 102 subfields, including mathematics, coding, physics,
literature, health, and arts. It supports both interleaved inputs and outputs,
offering a mix of multiple-choice and open-ended question formats to evaluate
diverse competencies. Moreover, we propose a reliable automated evaluation
metric, leveraging a scoring model fine-tuned with human-annotated data and
systematic evaluation criteria, aimed at reducing bias and improving evaluation
accuracy. Extensive experiments demonstrate the effectiveness of our benchmark
and metrics in providing a comprehensive evaluation of interleaved LVLMs.
Specifically, we evaluate eight LVLMs, revealing that even the best models show
significant room for improvement, with most achieving only moderate results. We
believe MMIE will drive further advancements in the development of interleaved
LVLMs. We publicly release our benchmark and code in
https://mmie-bench.github.io/.Summary
AI-Generated Summary