CMMMU: Un Benchmark Chino de Comprensión Multidisciplinaria y Multimodal a Gran Escala
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
January 22, 2024
Autores: Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu-Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu
cs.AI
Resumen
A medida que las capacidades de los modelos multimodales grandes (LMMs) continúan avanzando, surge una creciente necesidad de evaluar su rendimiento. Además, existe una brecha aún mayor en la evaluación de las habilidades avanzadas de conocimiento y razonamiento de los LMMs en contextos no ingleses, como el chino. Presentamos CMMMU, un nuevo benchmark de Comprensión Multimodal Multidisciplinaria Masiva en Chino, diseñado para evaluar LMMs en tareas que requieren conocimiento de nivel universitario y razonamiento deliberado en un contexto chino. CMMMU está inspirado y sigue estrictamente el patrón de anotación y análisis de MMMU.
CMMMU incluye 12k preguntas multimodales recopiladas manualmente de exámenes universitarios, cuestionarios y libros de texto, cubriendo seis disciplinas principales: Arte y Diseño, Negocios, Ciencia, Salud y Medicina, Humanidades y Ciencias Sociales, y Tecnología e Ingeniería, al igual que su contraparte, MMMU. Estas preguntas abarcan 30 materias y comprenden 39 tipos de imágenes altamente heterogéneas, como gráficos, diagramas, mapas, tablas, partituras musicales y estructuras químicas.
CMMMU se centra en la percepción compleja y el razonamiento con conocimiento específico del dominio en el contexto chino. Evaluamos 11 LLMs de código abierto y uno propietario, GPT-4V(isión). Incluso GPT-4V solo alcanza precisiones del 42%, lo que indica un amplio margen de mejora. CMMMU impulsará a la comunidad a construir la próxima generación de LMMs hacia la inteligencia artificial experta y promoverá la democratización de los LMMs al proporcionar contextos lingüísticos diversos.
English
As the capabilities of large multimodal models (LMMs) continue to advance,
evaluating the performance of LMMs emerges as an increasing need. Additionally,
there is an even larger gap in evaluating the advanced knowledge and reasoning
abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU,
a new Chinese Massive Multi-discipline Multimodal Understanding benchmark
designed to evaluate LMMs on tasks demanding college-level subject knowledge
and deliberate reasoning in a Chinese context. CMMMU is inspired by and
strictly follows the annotation and analysis pattern of MMMU.
CMMMU includes 12k manually collected multimodal questions from college
exams, quizzes, and textbooks, covering six core disciplines: Art & Design,
Business, Science, Health & Medicine, Humanities & Social Science, and Tech &
Engineering, like its companion, MMMU. These questions span 30 subjects and
comprise 39 highly heterogeneous image types, such as charts, diagrams, maps,
tables, music sheets, and chemical structures.
CMMMU focuses on complex perception and reasoning with domain-specific
knowledge in the Chinese context. We evaluate 11 open-source LLMs and one
proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%,
indicating a large space for improvement. CMMMU will boost the community to
build the next-generation LMMs towards expert artificial intelligence and
promote the democratization of LMMs by providing diverse language contexts.