JMMMU: un benchmark giapponese di comprensione multimodale e multi-disciplinare su larga scala per valutazioni consapevoli della cultura.

Abstract

Accelerare la ricerca sui Large Multimodal Models (LMM) nelle lingue non inglesi è cruciale per migliorare le esperienze degli utenti in popolazioni più ampie. In questo articolo, presentiamo JMMMU (Japanese MMMU), il primo benchmark giapponese su larga scala progettato per valutare i LMM su compiti di livello esperto basati sul contesto culturale giapponese. Per facilitare una valutazione completa consapevole della cultura, JMMMU presenta due sottoinsiemi complementari: (i) sottoinsieme culture-agnostic (CA), in cui vengono selezionati soggetti indipendenti dalla cultura (ad es. Matematica) e tradotti in giapponese, consentendo un confronto uno a uno con il corrispettivo inglese MMMU; e (ii) sottoinsieme culture-specific (CS), che comprende soggetti appositamente creati che riflettono il contesto culturale giapponese. Utilizzando il sottoinsieme CA, osserviamo una diminuzione delle prestazioni in molti LMM quando valutati in giapponese, attribuibile esclusivamente alla variazione linguistica. Utilizzando il sottoinsieme CS, riveliamo una loro inadeguata comprensione della cultura giapponese. Inoltre, combinando entrambi i sottoinsiemi, identifichiamo che alcuni LMM hanno buone prestazioni nel sottoinsieme CA ma non nel sottoinsieme CS, evidenziando una comprensione superficiale della lingua giapponese che manca di profondità nella comprensione culturale. Speriamo che questo lavoro non solo contribuirà a migliorare le prestazioni dei LMM in giapponese, ma servirà anche come linea guida per creare benchmark culturalmente diversificati di alto livello per lo sviluppo di LMM multilingue. La pagina del progetto è https://mmmu-japanese-benchmark.github.io/JMMMU/.

English

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

JMMMU: un benchmark giapponese di comprensione multimodale e multi-disciplinare su larga scala per valutazioni consapevoli della cultura.

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Abstract

Summary

Support

Support