MMMU-Pro: un benchmark per una comprensione multimodale multi-disciplinare più robusta
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
September 4, 2024
Autori: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
cs.AI
Abstract
Questo articolo introduce MMMU-Pro, una versione robusta del benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro valuta rigorosamente le vere capacità di comprensione e ragionamento dei modelli multimodali attraverso un processo in tre fasi basato su MMMU: (1) filtraggio delle domande risolvibili solo dai modelli basati sul testo, (2) ampliamento delle opzioni dei candidati e (3) introduzione di un'impostazione di input solo visione in cui le domande sono incorporate nelle immagini. Questa configurazione sfida l'IA a "vedere" e "leggere" contemporaneamente, testando una competenza cognitiva umana fondamentale di integrare in modo fluido informazioni visive e testuali. I risultati mostrano che le prestazioni del modello sono notevolmente inferiori su MMMU-Pro rispetto a MMMU, con variazioni dal 16,8% al 26,9% tra i modelli. Esploriamo l'impatto delle istruzioni OCR e del ragionamento Chain of Thought (CoT), scoprendo che le istruzioni OCR hanno un effetto minimo mentre CoT migliora generalmente le prestazioni. MMMU-Pro fornisce uno strumento di valutazione più rigoroso, che imita da vicino scenari reali e offre preziose indicazioni per futuri studi nell'ambito dell'IA multimodale.
English
This paper introduces MMMU-Pro, a robust version of the Massive
Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark.
MMMU-Pro rigorously assesses multimodal models' true understanding and
reasoning capabilities through a three-step process based on MMMU: (1)
filtering out questions answerable by text-only models, (2) augmenting
candidate options, and (3) introducing a vision-only input setting where
questions are embedded within images. This setting challenges AI to truly "see"
and "read" simultaneously, testing a fundamental human cognitive skill of
seamlessly integrating visual and textual information. Results show that model
performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8%
to 26.9% across models. We explore the impact of OCR prompts and Chain of
Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT
generally improves performance. MMMU-Pro provides a more rigorous evaluation
tool, closely mimicking real-world scenarios and offering valuable directions
for future research in multimodal AI.