MMMU-Pro: Um Benchmark de Compreensão Multimodal Multi-disciplinar Mais Robusto
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
September 4, 2024
Autores: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
cs.AI
Resumo
Este artigo apresenta o MMMU-Pro, uma versão robusta do benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). O MMMU-Pro avalia rigorosamente as verdadeiras capacidades de compreensão e raciocínio de modelos multimodais por meio de um processo de três etapas baseado no MMMU: (1) filtragem de perguntas respondíveis por modelos apenas de texto, (2) aumento de opções de candidatos e (3) introdução de um cenário de entrada apenas de visão, onde as perguntas são incorporadas em imagens. Esse cenário desafia a IA a verdadeiramente "ver" e "ler" simultaneamente, testando uma habilidade cognitiva humana fundamental de integrar visual e informações textuais de forma contínua. Os resultados mostram que o desempenho do modelo é substancialmente menor no MMMU-Pro do que no MMMU, variando de 16,8% a 26,9% entre os modelos. Exploramos o impacto das sugestões de OCR e do raciocínio Chain of Thought (CoT), constatando que as sugestões de OCR têm efeito mínimo, enquanto o CoT geralmente melhora o desempenho. O MMMU-Pro fornece uma ferramenta de avaliação mais rigorosa, imitando de perto cenários do mundo real e oferecendo direções valiosas para pesquisas futuras em IA multimodal.
English
This paper introduces MMMU-Pro, a robust version of the Massive
Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark.
MMMU-Pro rigorously assesses multimodal models' true understanding and
reasoning capabilities through a three-step process based on MMMU: (1)
filtering out questions answerable by text-only models, (2) augmenting
candidate options, and (3) introducing a vision-only input setting where
questions are embedded within images. This setting challenges AI to truly "see"
and "read" simultaneously, testing a fundamental human cognitive skill of
seamlessly integrating visual and textual information. Results show that model
performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8%
to 26.9% across models. We explore the impact of OCR prompts and Chain of
Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT
generally improves performance. MMMU-Pro provides a more rigorous evaluation
tool, closely mimicking real-world scenarios and offering valuable directions
for future research in multimodal AI.Summary
AI-Generated Summary