ChatPaper.aiChatPaper

CMMMU: Een Chinese Benchmark voor Massaal Multidisciplinair Multimodaal Begrip

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

January 22, 2024
Auteurs: Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu-Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu
cs.AI

Samenvatting

Naarmate de mogelijkheden van grote multimodale modellen (LMMs) blijven toenemen, ontstaat er een groeiende behoefte aan het evalueren van de prestaties van LMMs. Bovendien is er een nog grotere kloof in het evalueren van de geavanceerde kennis en redeneervaardigheden van LMMs in niet-Engelse contexten, zoals het Chinees. Wij introduceren CMMMU, een nieuwe Chinese Massive Multi-discipline Multimodal Understanding benchmark, ontworpen om LMMs te evalueren op taken die universitair vakinhoudelijke kennis en doordacht redeneren vereisen in een Chinese context. CMMMU is geïnspireerd door en volgt strikt de annotatie- en analysepatronen van MMMU. CMMMU omvat 12k handmatig verzamelde multimodale vragen uit universitaire examens, quizzen en leerboeken, die zes kernvakgebieden bestrijken: Kunst & Design, Bedrijfskunde, Wetenschap, Gezondheid & Geneeskunde, Geesteswetenschappen & Sociale Wetenschappen, en Techniek & Ingenieurswetenschappen, net als zijn tegenhanger, MMMU. Deze vragen beslaan 30 vakken en bestaan uit 39 zeer heterogene afbeeldingstypes, zoals grafieken, diagrammen, kaarten, tabellen, bladmuziek en chemische structuren. CMMMU richt zich op complexe perceptie en redenering met domeinspecifieke kennis in de Chinese context. We evalueren 11 open-source LLM's en één propriëtaire GPT-4V(ision). Zelfs GPT-4V behaalt slechts een nauwkeurigheid van 42%, wat wijst op een grote ruimte voor verbetering. CMMMU zal de gemeenschap stimuleren om de volgende generatie LMMs te ontwikkelen richting expert kunstmatige intelligentie en de democratisering van LMMs bevorderen door diverse taalcontexten te bieden.
English
As the capabilities of large multimodal models (LMMs) continue to advance, evaluating the performance of LMMs emerges as an increasing need. Additionally, there is an even larger gap in evaluating the advanced knowledge and reasoning abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU, a new Chinese Massive Multi-discipline Multimodal Understanding benchmark designed to evaluate LMMs on tasks demanding college-level subject knowledge and deliberate reasoning in a Chinese context. CMMMU is inspired by and strictly follows the annotation and analysis pattern of MMMU. CMMMU includes 12k manually collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering, like its companion, MMMU. These questions span 30 subjects and comprise 39 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. CMMMU focuses on complex perception and reasoning with domain-specific knowledge in the Chinese context. We evaluate 11 open-source LLMs and one proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%, indicating a large space for improvement. CMMMU will boost the community to build the next-generation LMMs towards expert artificial intelligence and promote the democratization of LMMs by providing diverse language contexts.
PDF272December 15, 2024