JMMMU: Японский масштабный мультидисциплинарный мультимодальный бенчмарк для оценки с учетом культуры

Аннотация

Ускорение исследований по большим мультимодельным моделям (LMM) на неанглийских языках крайне важно для улучшения пользовательских впечатлений среди более широких населенных групп. В данной статье мы представляем JMMMU (Japanese MMMU), первый крупномасштабный японский бенчмарк, разработанный для оценки LMM на задачах экспертного уровня, основанных на японском культурном контексте. Для облегчения всесторонней культурно-осознанной оценки JMMMU включает два взаимодополняющих подмножества: (i) культурно-агностическое (CA) подмножество, где выбраны культурно-независимые предметы (например, математика) и переведены на японский, что позволяет проводить сравнение один к одному с его англоязычным аналогом MMMU; и (ii) культурно-специфическое (CS) подмножество, включающее вновь созданные предметы, отражающие японский культурный контекст. Используя CA подмножество, мы наблюдаем снижение производительности многих LMM при оценке на японском языке, что полностью обусловлено языковыми различиями. Используя CS подмножество, мы выявляем их недостаточное понимание японской культуры. Кроме того, объединяя оба подмножества, мы определяем, что некоторые LMM хорошо справляются с CA подмножеством, но не с CS подмножеством, выявляя поверхностное понимание японского языка, лишенное глубокого культурного понимания. Мы надеемся, что данная работа не только поможет продвинуть производительность LMM на японском языке, но также послужит руководством по созданию высококачественных, культурно разнообразных бенчмарков для развития многоязычных LMM. Страница проекта: https://mmmu-japanese-benchmark.github.io/JMMMU/.

English

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

JMMMU: Японский масштабный мультидисциплинарный мультимодальный бенчмарк для оценки с учетом культуры

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Аннотация

Support