MMMU-Pro : un banc d'essai pour une compréhension multimodale multi-disciplinaire plus robuste
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
September 4, 2024
Auteurs: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
cs.AI
Résumé
Cet article présente MMMU-Pro, une version robuste du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro évalue rigoureusement la véritable compréhension et les capacités de raisonnement des modèles multimodaux à travers un processus en trois étapes basé sur MMMU : (1) filtrer les questions pouvant être répondues par des modèles basés uniquement sur du texte, (2) augmenter les options de réponse candidates, et (3) introduire un cadre d'entrée basé uniquement sur la vision où les questions sont intégrées dans des images. Ce cadre met l'IA au défi de "voir" et "lire" simultanément, testant une compétence cognitive humaine fondamentale consistant à intégrer de manière transparente des informations visuelles et textuelles. Les résultats montrent que les performances des modèles sont nettement inférieures sur MMMU-Pro par rapport à MMMU, avec des écarts allant de 16,8% à 26,9% entre les modèles. Nous explorons l'impact des incitations OCR et du raisonnement Chain of Thought (CoT), constatant que les incitations OCR ont un effet minimal tandis que CoT améliore généralement les performances. MMMU-Pro fournit un outil d'évaluation plus rigoureux, imitant étroitement des scénarios du monde réel et offrant des orientations précieuses pour les futures recherches en IA multimodale.
English
This paper introduces MMMU-Pro, a robust version of the Massive
Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark.
MMMU-Pro rigorously assesses multimodal models' true understanding and
reasoning capabilities through a three-step process based on MMMU: (1)
filtering out questions answerable by text-only models, (2) augmenting
candidate options, and (3) introducing a vision-only input setting where
questions are embedded within images. This setting challenges AI to truly "see"
and "read" simultaneously, testing a fundamental human cognitive skill of
seamlessly integrating visual and textual information. Results show that model
performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8%
to 26.9% across models. We explore the impact of OCR prompts and Chain of
Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT
generally improves performance. MMMU-Pro provides a more rigorous evaluation
tool, closely mimicking real-world scenarios and offering valuable directions
for future research in multimodal AI.Summary
AI-Generated Summary