JMMMU: Un banco de pruebas japonés de comprensión multimodal masiva y multidisciplinaria para evaluación consciente de la cultura.
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
October 22, 2024
Autores: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI
Resumen
La aceleración de la investigación sobre Modelos Multimodales Grandes (LMMs) en idiomas no ingleses es crucial para mejorar las experiencias de usuario en poblaciones más amplias. En este documento, presentamos JMMMU (Japanese MMMU), el primer banco de pruebas japonés a gran escala diseñado para evaluar LMMs en tareas de nivel experto basadas en el contexto cultural japonés. Para facilitar una evaluación integral consciente de la cultura, JMMMU cuenta con dos subconjuntos complementarios: (i) subconjunto sin cultura (CA), donde se seleccionan y traducen al japonés los temas independientes de la cultura (por ejemplo, Matemáticas), lo que permite una comparación uno a uno con su contraparte en inglés, MMMU; y (ii) subconjunto específico de la cultura (CS), que comprende temas recién creados que reflejan el contexto cultural japonés. Utilizando el subconjunto CA, observamos una disminución del rendimiento en muchos LMMs al ser evaluados en japonés, lo cual se atribuye únicamente a la variación del idioma. Al utilizar el subconjunto CS, revelamos su insuficiente comprensión de la cultura japonesa. Además, al combinar ambos subconjuntos, identificamos que algunos LMMs tienen un buen rendimiento en el subconjunto CA pero no en el subconjunto CS, lo que pone de manifiesto una comprensión superficial del idioma japonés que carece de profundidad en la comprensión cultural. Esperamos que este trabajo no solo contribuya al avance del rendimiento de LMMs en japonés, sino que también sirva como una guía para crear bancos de pruebas culturalmente diversos y de alto nivel para el desarrollo de LMMs multilingües. La página del proyecto es https://mmmu-japanese-benchmark.github.io/JMMMU/.
English
Accelerating research on Large Multimodal Models (LMMs) in non-English
languages is crucial for enhancing user experiences across broader populations.
In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale
Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the
Japanese cultural context. To facilitate comprehensive culture-aware
evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA)
subset, where the culture-independent subjects (e.g., Math) are selected and
translated into Japanese, enabling one-to-one comparison with its English
counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly
crafted subjects that reflect Japanese cultural context. Using the CA subset,
we observe performance drop in many LMMs when evaluated in Japanese, which is
purely attributable to language variation. Using the CS subset, we reveal their
inadequate Japanese cultural understanding. Further, by combining both subsets,
we identify that some LMMs perform well on the CA subset but not on the CS
subset, exposing a shallow understanding of the Japanese language that lacks
depth in cultural understanding. We hope this work will not only help advance
LMM performance in Japanese but also serve as a guideline to create
high-standard, culturally diverse benchmarks for multilingual LMM development.
The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.Summary
AI-Generated Summary