ChatPaper.aiChatPaper

MMIE : Ensemble de données de référence pour la compréhension massive multimodale entrelacée pour les grands modèles de vision-langage

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

October 14, 2024
Auteurs: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI

Résumé

La compréhension et la génération multimodales entrelacées, permettant aux modèles de produire et d'interpréter à la fois des images et du texte dans des séquences arbitraires, sont devenues un domaine crucial dans l'apprentissage multimodal. Malgré des avancées significatives, l'évaluation de cette capacité reste insuffisante. Les benchmarks existants souffrent de limitations en termes d'échelle des données, de portée et de profondeur d'évaluation, tandis que les métriques d'évaluation actuelles sont souvent coûteuses ou biaisées, manquant de fiabilité pour des applications pratiques. Pour relever ces défis, nous introduisons MMIE, un benchmark intensif en connaissances à grande échelle pour évaluer la compréhension et la génération multimodales entrelacées dans les Grands Modèles Vision-Langage (LVLM). MMIE comprend 20 000 requêtes multimodales méticuleusement sélectionnées, couvrant 3 catégories, 12 domaines et 102 sous-domaines, incluant les mathématiques, la programmation, la physique, la littérature, la santé et les arts. Il prend en charge à la fois les entrées et les sorties entrelacées, offrant un mélange de formats de questions à choix multiples et ouvertes pour évaluer des compétences diverses. De plus, nous proposons une métrique d'évaluation automatisée fiable, exploitant un modèle de notation affiné avec des données annotées par des humains et des critères d'évaluation systématiques, visant à réduire les biais et à améliorer la précision de l'évaluation. Des expériences approfondies démontrent l'efficacité de notre benchmark et de nos métriques pour fournir une évaluation complète des LVLM entrelacés. Plus précisément, nous évaluons huit LVLM, révélant que même les meilleurs modèles montrent un potentiel d'amélioration significatif, la plupart n'atteignant que des résultats modérés. Nous pensons que MMIE stimulera de nouvelles avancées dans le développement des LVLM entrelacés. Nous rendons notre benchmark et notre code publics sur https://mmie-bench.github.io/.
English
Interleaved multimodal comprehension and generation, enabling models to produce and interpret both images and text in arbitrary sequences, have become a pivotal area in multimodal learning. Despite significant advancements, the evaluation of this capability remains insufficient. Existing benchmarks suffer from limitations in data scale, scope, and evaluation depth, while current evaluation metrics are often costly or biased, lacking in reliability for practical applications. To address these challenges, we introduce MMIE, a large-scale knowledge-intensive benchmark for evaluating interleaved multimodal comprehension and generation in Large Vision-Language Models (LVLMs). MMIE comprises 20K meticulously curated multimodal queries, spanning 3 categories, 12 fields, and 102 subfields, including mathematics, coding, physics, literature, health, and arts. It supports both interleaved inputs and outputs, offering a mix of multiple-choice and open-ended question formats to evaluate diverse competencies. Moreover, we propose a reliable automated evaluation metric, leveraging a scoring model fine-tuned with human-annotated data and systematic evaluation criteria, aimed at reducing bias and improving evaluation accuracy. Extensive experiments demonstrate the effectiveness of our benchmark and metrics in providing a comprehensive evaluation of interleaved LVLMs. Specifically, we evaluate eight LVLMs, revealing that even the best models show significant room for improvement, with most achieving only moderate results. We believe MMIE will drive further advancements in the development of interleaved LVLMs. We publicly release our benchmark and code in https://mmie-bench.github.io/.

Summary

AI-Generated Summary

PDF534November 16, 2024