MMIE: Massieve Multimodale Onderlinge Begripsbenchmark voor Grote Visie-Taalmodellen
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
October 14, 2024
Auteurs: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI
Samenvatting
Onderlinge multimodale begrip en generatie, waardoor modellen zowel afbeeldingen als tekst in willekeurige volgordes kunnen produceren en interpreteren, zijn een cruciaal gebied geworden in multimodaal leren. Ondanks aanzienlijke vooruitgang blijft de evaluatie van deze capaciteit ontoereikend. Bestaande benchmarks kampen met beperkingen op het gebied van datagrootte, reikwijdte en evaluatiediepte, terwijl huidige evaluatiemetrics vaak kostbaar of vooringenomen zijn, en betrouwbaarheid missen voor praktische toepassingen. Om deze uitdagingen aan te pakken, introduceren we MMIE, een grootschalige kennisintensieve benchmark voor het evalueren van onderlinge multimodale begrip en generatie in Grote Visie-Taalmodellen (GVLM's). MMIE omvat 20K zorgvuldig samengestelde multimodale vragen, die 3 categorieën, 12 velden en 102 subvelden bestrijken, waaronder wiskunde, codering, natuurkunde, literatuur, gezondheid en kunst. Het ondersteunt zowel onderlinge invoer als uitvoer, en biedt een mix van meerkeuze- en open vraagformaten om diverse competenties te evalueren. Bovendien stellen we een betrouwbare geautomatiseerde evaluatiemetric voor, waarbij gebruik wordt gemaakt van een scoremodel dat is verfijnd met door mensen geannoteerde gegevens en systematische evaluatiecriteria, met als doel vooringenomenheid te verminderen en de evaluatienauwkeurigheid te verbeteren. Uitgebreide experimenten tonen de effectiviteit van onze benchmark en metrics aan bij het bieden van een uitgebreide evaluatie van onderlinge GVLM's. Specifiek evalueren we acht GVLM's, waarbij blijkt dat zelfs de beste modellen aanzienlijke ruimte voor verbetering laten zien, waarbij de meeste slechts matige resultaten behalen. We zijn van mening dat MMIE verdere vooruitgang zal stimuleren in de ontwikkeling van onderlinge GVLM's. We maken onze benchmark en code openbaar beschikbaar op https://mmie-bench.github.io/.
English
Interleaved multimodal comprehension and generation, enabling models to
produce and interpret both images and text in arbitrary sequences, have become
a pivotal area in multimodal learning. Despite significant advancements, the
evaluation of this capability remains insufficient. Existing benchmarks suffer
from limitations in data scale, scope, and evaluation depth, while current
evaluation metrics are often costly or biased, lacking in reliability for
practical applications. To address these challenges, we introduce MMIE, a
large-scale knowledge-intensive benchmark for evaluating interleaved multimodal
comprehension and generation in Large Vision-Language Models (LVLMs). MMIE
comprises 20K meticulously curated multimodal queries, spanning 3 categories,
12 fields, and 102 subfields, including mathematics, coding, physics,
literature, health, and arts. It supports both interleaved inputs and outputs,
offering a mix of multiple-choice and open-ended question formats to evaluate
diverse competencies. Moreover, we propose a reliable automated evaluation
metric, leveraging a scoring model fine-tuned with human-annotated data and
systematic evaluation criteria, aimed at reducing bias and improving evaluation
accuracy. Extensive experiments demonstrate the effectiveness of our benchmark
and metrics in providing a comprehensive evaluation of interleaved LVLMs.
Specifically, we evaluate eight LVLMs, revealing that even the best models show
significant room for improvement, with most achieving only moderate results. We
believe MMIE will drive further advancements in the development of interleaved
LVLMs. We publicly release our benchmark and code in
https://mmie-bench.github.io/.Summary
AI-Generated Summary