CMMMU: Un Benchmark Cinese di Comprensione Multimodale e Multidisciplinare su Larga Scala
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
January 22, 2024
Autori: Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu-Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu
cs.AI
Abstract
Con l'avanzamento delle capacità dei grandi modelli multimodali (LMM), emerge una crescente necessità di valutare le loro prestazioni. Inoltre, esiste un divario ancora maggiore nella valutazione delle conoscenze avanzate e delle abilità di ragionamento degli LMM in contesti non inglesi, come il cinese. Introduciamo CMMMU, un nuovo benchmark di comprensione multimodale multidisciplinare cinese, progettato per valutare gli LMM su compiti che richiedono conoscenze disciplinari di livello universitario e un ragionamento ponderato in un contesto cinese. CMMMU è ispirato e segue rigorosamente lo schema di annotazione e analisi di MMMU.
CMMMU include 12k domande multimodali raccolte manualmente da esami universitari, quiz e libri di testo, coprendo sei discipline principali: Arte e Design, Business, Scienza, Salute e Medicina, Discipline Umanistiche e Sociali, e Tecnologia e Ingegneria, come il suo compagno MMMU. Queste domande abbracciano 30 materie e comprendono 39 tipi di immagini altamente eterogenei, come grafici, diagrammi, mappe, tabelle, spartiti musicali e strutture chimiche.
CMMMU si concentra sulla percezione complessa e sul ragionamento con conoscenze specifiche del dominio nel contesto cinese. Abbiamo valutato 11 LLM open-source e un GPT-4V(ision) proprietario. Anche GPT-4V raggiunge solo un'accuratezza del 42%, indicando un ampio spazio di miglioramento. CMMMU spingerà la comunità a costruire la prossima generazione di LMM verso un'intelligenza artificiale esperta e promuoverà la democratizzazione degli LMM fornendo contesti linguistici diversificati.
English
As the capabilities of large multimodal models (LMMs) continue to advance,
evaluating the performance of LMMs emerges as an increasing need. Additionally,
there is an even larger gap in evaluating the advanced knowledge and reasoning
abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU,
a new Chinese Massive Multi-discipline Multimodal Understanding benchmark
designed to evaluate LMMs on tasks demanding college-level subject knowledge
and deliberate reasoning in a Chinese context. CMMMU is inspired by and
strictly follows the annotation and analysis pattern of MMMU.
CMMMU includes 12k manually collected multimodal questions from college
exams, quizzes, and textbooks, covering six core disciplines: Art & Design,
Business, Science, Health & Medicine, Humanities & Social Science, and Tech &
Engineering, like its companion, MMMU. These questions span 30 subjects and
comprise 39 highly heterogeneous image types, such as charts, diagrams, maps,
tables, music sheets, and chemical structures.
CMMMU focuses on complex perception and reasoning with domain-specific
knowledge in the Chinese context. We evaluate 11 open-source LLMs and one
proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%,
indicating a large space for improvement. CMMMU will boost the community to
build the next-generation LMMs towards expert artificial intelligence and
promote the democratization of LMMs by providing diverse language contexts.