CMMMU: Un Benchmark Cinese di Comprensione Multimodale e Multidisciplinare su Larga Scala

Abstract

Con l'avanzamento delle capacità dei grandi modelli multimodali (LMM), emerge una crescente necessità di valutare le loro prestazioni. Inoltre, esiste un divario ancora maggiore nella valutazione delle conoscenze avanzate e delle abilità di ragionamento degli LMM in contesti non inglesi, come il cinese. Introduciamo CMMMU, un nuovo benchmark di comprensione multimodale multidisciplinare cinese, progettato per valutare gli LMM su compiti che richiedono conoscenze disciplinari di livello universitario e un ragionamento ponderato in un contesto cinese. CMMMU è ispirato e segue rigorosamente lo schema di annotazione e analisi di MMMU. CMMMU include 12k domande multimodali raccolte manualmente da esami universitari, quiz e libri di testo, coprendo sei discipline principali: Arte e Design, Business, Scienza, Salute e Medicina, Discipline Umanistiche e Sociali, e Tecnologia e Ingegneria, come il suo compagno MMMU. Queste domande abbracciano 30 materie e comprendono 39 tipi di immagini altamente eterogenei, come grafici, diagrammi, mappe, tabelle, spartiti musicali e strutture chimiche. CMMMU si concentra sulla percezione complessa e sul ragionamento con conoscenze specifiche del dominio nel contesto cinese. Abbiamo valutato 11 LLM open-source e un GPT-4V(ision) proprietario. Anche GPT-4V raggiunge solo un'accuratezza del 42%, indicando un ampio spazio di miglioramento. CMMMU spingerà la comunità a costruire la prossima generazione di LMM verso un'intelligenza artificiale esperta e promuoverà la democratizzazione degli LMM fornendo contesti linguistici diversificati.

English

As the capabilities of large multimodal models (LMMs) continue to advance, evaluating the performance of LMMs emerges as an increasing need. Additionally, there is an even larger gap in evaluating the advanced knowledge and reasoning abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU, a new Chinese Massive Multi-discipline Multimodal Understanding benchmark designed to evaluate LMMs on tasks demanding college-level subject knowledge and deliberate reasoning in a Chinese context. CMMMU is inspired by and strictly follows the annotation and analysis pattern of MMMU. CMMMU includes 12k manually collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering, like its companion, MMMU. These questions span 30 subjects and comprise 39 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. CMMMU focuses on complex perception and reasoning with domain-specific knowledge in the Chinese context. We evaluate 11 open-source LLMs and one proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%, indicating a large space for improvement. CMMMU will boost the community to build the next-generation LMMs towards expert artificial intelligence and promote the democratization of LMMs by providing diverse language contexts.

CMMMU: Un Benchmark Cinese di Comprensione Multimodale e Multidisciplinare su Larga Scala

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

Abstract

Support