MMIE: Massieve Multimodale Onderlinge Begripsbenchmark voor Grote Visie-Taalmodellen

Samenvatting

Onderlinge multimodale begrip en generatie, waardoor modellen zowel afbeeldingen als tekst in willekeurige volgordes kunnen produceren en interpreteren, zijn een cruciaal gebied geworden in multimodaal leren. Ondanks aanzienlijke vooruitgang blijft de evaluatie van deze capaciteit ontoereikend. Bestaande benchmarks kampen met beperkingen op het gebied van datagrootte, reikwijdte en evaluatiediepte, terwijl huidige evaluatiemetrics vaak kostbaar of vooringenomen zijn, en betrouwbaarheid missen voor praktische toepassingen. Om deze uitdagingen aan te pakken, introduceren we MMIE, een grootschalige kennisintensieve benchmark voor het evalueren van onderlinge multimodale begrip en generatie in Grote Visie-Taalmodellen (GVLM's). MMIE omvat 20K zorgvuldig samengestelde multimodale vragen, die 3 categorieën, 12 velden en 102 subvelden bestrijken, waaronder wiskunde, codering, natuurkunde, literatuur, gezondheid en kunst. Het ondersteunt zowel onderlinge invoer als uitvoer, en biedt een mix van meerkeuze- en open vraagformaten om diverse competenties te evalueren. Bovendien stellen we een betrouwbare geautomatiseerde evaluatiemetric voor, waarbij gebruik wordt gemaakt van een scoremodel dat is verfijnd met door mensen geannoteerde gegevens en systematische evaluatiecriteria, met als doel vooringenomenheid te verminderen en de evaluatienauwkeurigheid te verbeteren. Uitgebreide experimenten tonen de effectiviteit van onze benchmark en metrics aan bij het bieden van een uitgebreide evaluatie van onderlinge GVLM's. Specifiek evalueren we acht GVLM's, waarbij blijkt dat zelfs de beste modellen aanzienlijke ruimte voor verbetering laten zien, waarbij de meeste slechts matige resultaten behalen. We zijn van mening dat MMIE verdere vooruitgang zal stimuleren in de ontwikkeling van onderlinge GVLM's. We maken onze benchmark en code openbaar beschikbaar op https://mmie-bench.github.io/.

English

Interleaved multimodal comprehension and generation, enabling models to produce and interpret both images and text in arbitrary sequences, have become a pivotal area in multimodal learning. Despite significant advancements, the evaluation of this capability remains insufficient. Existing benchmarks suffer from limitations in data scale, scope, and evaluation depth, while current evaluation metrics are often costly or biased, lacking in reliability for practical applications. To address these challenges, we introduce MMIE, a large-scale knowledge-intensive benchmark for evaluating interleaved multimodal comprehension and generation in Large Vision-Language Models (LVLMs). MMIE comprises 20K meticulously curated multimodal queries, spanning 3 categories, 12 fields, and 102 subfields, including mathematics, coding, physics, literature, health, and arts. It supports both interleaved inputs and outputs, offering a mix of multiple-choice and open-ended question formats to evaluate diverse competencies. Moreover, we propose a reliable automated evaluation metric, leveraging a scoring model fine-tuned with human-annotated data and systematic evaluation criteria, aimed at reducing bias and improving evaluation accuracy. Extensive experiments demonstrate the effectiveness of our benchmark and metrics in providing a comprehensive evaluation of interleaved LVLMs. Specifically, we evaluate eight LVLMs, revealing that even the best models show significant room for improvement, with most achieving only moderate results. We believe MMIE will drive further advancements in the development of interleaved LVLMs. We publicly release our benchmark and code in https://mmie-bench.github.io/.

MMIE: Massieve Multimodale Onderlinge Begripsbenchmark voor Grote Visie-Taalmodellen

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

Samenvatting

Support