ChatPaper.aiChatPaper

MMIE: Massiver multimodaler interleaved Verständnis-Benchmark für große Bildsprachmodelle

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

October 14, 2024
Autoren: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI

Zusammenfassung

Die interlektuelle multimodale Wahrnehmung und Generierung, die es Modellen ermöglicht, sowohl Bilder als auch Texte in beliebiger Reihenfolge zu erzeugen und zu interpretieren, sind zu einem entscheidenden Bereich im multimodalen Lernen geworden. Trotz bedeutender Fortschritte bleibt die Bewertung dieser Fähigkeit unzureichend. Bestehende Benchmarks leiden unter Einschränkungen hinsichtlich Datenumfang, -umfang und Bewertungstiefe, während aktuelle Bewertungsmetriken oft kostspielig oder voreingenommen sind und für praktische Anwendungen an Zuverlässigkeit mangeln. Um diesen Herausforderungen zu begegnen, stellen wir MMIE vor, einen umfangreichen wissensintensiven Benchmark zur Bewertung der interlektuellen multimodalen Wahrnehmung und Generierung in Large Vision-Language Models (LVLMs). MMIE umfasst 20.000 sorgfältig kuratierte multimodale Abfragen, die 3 Kategorien, 12 Felder und 102 Unterfelder abdecken, darunter Mathematik, Codierung, Physik, Literatur, Gesundheit und Kunst. Es unterstützt sowohl interlektuelle Eingaben als auch Ausgaben und bietet eine Mischung aus Multiple-Choice- und offenen Frageformaten zur Bewertung verschiedener Kompetenzen. Darüber hinaus schlagen wir eine zuverlässige automatisierte Bewertungsmetrik vor, die ein Bewertungsmodell nutzt, das mit menschlich annotierten Daten feinabgestimmt ist und systematische Bewertungskriterien verwendet, um Voreingenommenheit zu reduzieren und die Bewertungsgenauigkeit zu verbessern. Umfangreiche Experimente zeigen die Wirksamkeit unseres Benchmarks und unserer Metriken bei der Bereitstellung einer umfassenden Bewertung von interlektuellen LVLMs. Speziell bewerten wir acht LVLMs und zeigen auf, dass selbst die besten Modelle erhebliches Verbesserungspotenzial aufweisen, wobei die meisten nur moderate Ergebnisse erzielen. Wir sind der Überzeugung, dass MMIE weitere Fortschritte in der Entwicklung von interlektuellen LVLMs vorantreiben wird. Wir veröffentlichen unseren Benchmark und den Code öffentlich unter https://mmie-bench.github.io/.
English
Interleaved multimodal comprehension and generation, enabling models to produce and interpret both images and text in arbitrary sequences, have become a pivotal area in multimodal learning. Despite significant advancements, the evaluation of this capability remains insufficient. Existing benchmarks suffer from limitations in data scale, scope, and evaluation depth, while current evaluation metrics are often costly or biased, lacking in reliability for practical applications. To address these challenges, we introduce MMIE, a large-scale knowledge-intensive benchmark for evaluating interleaved multimodal comprehension and generation in Large Vision-Language Models (LVLMs). MMIE comprises 20K meticulously curated multimodal queries, spanning 3 categories, 12 fields, and 102 subfields, including mathematics, coding, physics, literature, health, and arts. It supports both interleaved inputs and outputs, offering a mix of multiple-choice and open-ended question formats to evaluate diverse competencies. Moreover, we propose a reliable automated evaluation metric, leveraging a scoring model fine-tuned with human-annotated data and systematic evaluation criteria, aimed at reducing bias and improving evaluation accuracy. Extensive experiments demonstrate the effectiveness of our benchmark and metrics in providing a comprehensive evaluation of interleaved LVLMs. Specifically, we evaluate eight LVLMs, revealing that even the best models show significant room for improvement, with most achieving only moderate results. We believe MMIE will drive further advancements in the development of interleaved LVLMs. We publicly release our benchmark and code in https://mmie-bench.github.io/.

Summary

AI-Generated Summary

PDF534November 16, 2024