ChatPaper.aiChatPaper

MMMU-Pro : un banc d'essai pour une compréhension multimodale multi-disciplinaire plus robuste

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

September 4, 2024
Auteurs: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
cs.AI

Résumé

Cet article présente MMMU-Pro, une version robuste du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro évalue rigoureusement la véritable compréhension et les capacités de raisonnement des modèles multimodaux à travers un processus en trois étapes basé sur MMMU : (1) filtrer les questions pouvant être répondues par des modèles basés uniquement sur du texte, (2) augmenter les options de réponse candidates, et (3) introduire un cadre d'entrée basé uniquement sur la vision où les questions sont intégrées dans des images. Ce cadre met l'IA au défi de "voir" et "lire" simultanément, testant une compétence cognitive humaine fondamentale consistant à intégrer de manière transparente des informations visuelles et textuelles. Les résultats montrent que les performances des modèles sont nettement inférieures sur MMMU-Pro par rapport à MMMU, avec des écarts allant de 16,8% à 26,9% entre les modèles. Nous explorons l'impact des incitations OCR et du raisonnement Chain of Thought (CoT), constatant que les incitations OCR ont un effet minimal tandis que CoT améliore généralement les performances. MMMU-Pro fournit un outil d'évaluation plus rigoureux, imitant étroitement des scénarios du monde réel et offrant des orientations précieuses pour les futures recherches en IA multimodale.
English
This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models' true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly "see" and "read" simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.

Summary

AI-Generated Summary

PDF313November 16, 2024