MMIE: Massive Multimodal Interleaved Comprehension Benchmark per Grandi Modelli Visione-Linguaggio
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
October 14, 2024
Autori: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI
Abstract
La comprensione e la generazione multimodale intercalata, che permettono ai modelli di produrre e interpretare immagini e testo in sequenze arbitrarie, sono diventate un'area fondamentale nell'apprendimento multimodale. Nonostante significativi progressi, la valutazione di questa capacità rimane insufficiente. I benchmark esistenti presentano limitazioni in termini di scala dei dati, ambito e profondità della valutazione, mentre le attuali metriche di valutazione sono spesso costose o tendenziose, mancando di affidabilità per applicazioni pratiche. Per affrontare queste sfide, presentiamo MMIE, un benchmark di conoscenza su larga scala per valutare la comprensione e la generazione multimodale intercalata nei Grandi Modelli Visione-Linguaggio (LVLMs). MMIE include 20.000 query multimodali accuratamente selezionate, che spaziano su 3 categorie, 12 campi e 102 sottocampi, tra cui matematica, codifica, fisica, letteratura, salute e arte. Supporta sia input che output intercalati, offrendo una combinazione di formati di domande a scelta multipla e aperte per valutare competenze diverse. Inoltre, proponiamo una metrica di valutazione automatizzata affidabile, sfruttando un modello di punteggio ottimizzato con dati annotati dall'uomo e criteri di valutazione sistematici, mirati a ridurre i bias e migliorare l'accuratezza della valutazione. Estesi esperimenti dimostrano l'efficacia del nostro benchmark e delle metriche nel fornire una valutazione completa dei LVLM intercalati. In particolare, valutiamo otto LVLM, rivelando che anche i modelli migliori mostrano significativi margini di miglioramento, con la maggior parte che raggiunge solo risultati moderati. Crediamo che MMIE favorirà ulteriori progressi nello sviluppo dei LVLM intercalati. Rilasciamo pubblicamente il nostro benchmark e il codice su https://mmie-bench.github.io/.
English
Interleaved multimodal comprehension and generation, enabling models to
produce and interpret both images and text in arbitrary sequences, have become
a pivotal area in multimodal learning. Despite significant advancements, the
evaluation of this capability remains insufficient. Existing benchmarks suffer
from limitations in data scale, scope, and evaluation depth, while current
evaluation metrics are often costly or biased, lacking in reliability for
practical applications. To address these challenges, we introduce MMIE, a
large-scale knowledge-intensive benchmark for evaluating interleaved multimodal
comprehension and generation in Large Vision-Language Models (LVLMs). MMIE
comprises 20K meticulously curated multimodal queries, spanning 3 categories,
12 fields, and 102 subfields, including mathematics, coding, physics,
literature, health, and arts. It supports both interleaved inputs and outputs,
offering a mix of multiple-choice and open-ended question formats to evaluate
diverse competencies. Moreover, we propose a reliable automated evaluation
metric, leveraging a scoring model fine-tuned with human-annotated data and
systematic evaluation criteria, aimed at reducing bias and improving evaluation
accuracy. Extensive experiments demonstrate the effectiveness of our benchmark
and metrics in providing a comprehensive evaluation of interleaved LVLMs.
Specifically, we evaluate eight LVLMs, revealing that even the best models show
significant room for improvement, with most achieving only moderate results. We
believe MMIE will drive further advancements in the development of interleaved
LVLMs. We publicly release our benchmark and code in
https://mmie-bench.github.io/.Summary
AI-Generated Summary