MMMU-Pro: Ein robuster Benchmark für multidisziplinäres multimodales Verständnis
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
September 4, 2024
Autoren: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
cs.AI
Zusammenfassung
Dieses Papier stellt MMMU-Pro vor, eine robuste Version des Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) Benchmarks. MMMU-Pro bewertet die wahre Verständnis- und Schlussfolgerungsfähigkeit multimodaler Modelle eingehend durch einen dreistufigen Prozess, der auf MMMU basiert: (1) Filtern von Fragen, die nur von Textmodellen beantwortet werden können, (2) Erweitern der Kandidatenoptionen und (3) Einführung eines Einstellungsmodus nur für Vision-Eingaben, bei dem Fragen in Bilder eingebettet sind. Diese Einstellung fordert KI heraus, wirklich gleichzeitig "sehen" und "lesen" zu können, und testet eine grundlegende menschliche kognitive Fähigkeit, visuelle und textuelle Informationen nahtlos zu integrieren. Die Ergebnisse zeigen, dass die Leistung der Modelle bei MMMU-Pro im Vergleich zu MMMU deutlich niedriger ist, mit Unterschieden von 16,8% bis 26,9% zwischen den Modellen. Wir untersuchen den Einfluss von OCR-Prompts und Chain of Thought (CoT) Schlussfolgerungen und stellen fest, dass OCR-Prompts nur minimale Auswirkungen haben, während CoT die Leistung im Allgemeinen verbessert. MMMU-Pro bietet ein strengeres Bewertungsinstrument, das reale Szenarien eng nachahmt und wertvolle Richtungen für zukünftige Forschung im Bereich multimodaler KI aufzeigt.
English
This paper introduces MMMU-Pro, a robust version of the Massive
Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark.
MMMU-Pro rigorously assesses multimodal models' true understanding and
reasoning capabilities through a three-step process based on MMMU: (1)
filtering out questions answerable by text-only models, (2) augmenting
candidate options, and (3) introducing a vision-only input setting where
questions are embedded within images. This setting challenges AI to truly "see"
and "read" simultaneously, testing a fundamental human cognitive skill of
seamlessly integrating visual and textual information. Results show that model
performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8%
to 26.9% across models. We explore the impact of OCR prompts and Chain of
Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT
generally improves performance. MMMU-Pro provides a more rigorous evaluation
tool, closely mimicking real-world scenarios and offering valuable directions
for future research in multimodal AI.Summary
AI-Generated Summary