MMMU-Pro: Een robuustere benchmark voor multidisciplinair multimodaal begrip
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
September 4, 2024
Auteurs: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
cs.AI
Samenvatting
Dit artikel introduceert MMMU-Pro, een robuuste versie van de Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro beoordeelt op strenge wijze het ware begrip en redeneervermogen van multimodale modellen via een driedelig proces gebaseerd op MMMU: (1) het filteren van vragen die door tekstmodellen kunnen worden beantwoord, (2) het uitbreiden van kandidaatopties, en (3) het introduceren van een visueel-only invoerinstelling waarbij vragen in afbeeldingen zijn ingebed. Deze instelling daagt AI uit om daadwerkelijk tegelijkertijd te "zien" en "lezen", wat een fundamentele menselijke cognitieve vaardigheid test om visuele en tekstuele informatie naadloos te integreren. De resultaten tonen aan dat de modelprestaties aanzienlijk lager zijn op MMMU-Pro dan op MMMU, variërend van 16,8% tot 26,9% over de modellen. We onderzoeken de impact van OCR-prompten en Chain of Thought (CoT) redenering, waarbij we vaststellen dat OCR-prompten een minimaal effect hebben, terwijl CoT over het algemeen de prestaties verbetert. MMMU-Pro biedt een strenger evaluatie-instrument, dat realistische scenario's nauwkeurig nabootst en waardevolle richtingen biedt voor toekomstig onderzoek in multimodale AI.
English
This paper introduces MMMU-Pro, a robust version of the Massive
Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark.
MMMU-Pro rigorously assesses multimodal models' true understanding and
reasoning capabilities through a three-step process based on MMMU: (1)
filtering out questions answerable by text-only models, (2) augmenting
candidate options, and (3) introducing a vision-only input setting where
questions are embedded within images. This setting challenges AI to truly "see"
and "read" simultaneously, testing a fundamental human cognitive skill of
seamlessly integrating visual and textual information. Results show that model
performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8%
to 26.9% across models. We explore the impact of OCR prompts and Chain of
Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT
generally improves performance. MMMU-Pro provides a more rigorous evaluation
tool, closely mimicking real-world scenarios and offering valuable directions
for future research in multimodal AI.Summary
AI-Generated Summary