JMMMU: Японский масштабный мультидисциплинарный мультимодальный бенчмарк для оценки с учетом культуры
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
October 22, 2024
Авторы: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI
Аннотация
Ускорение исследований по большим мультимодельным моделям (LMM) на неанглийских языках крайне важно для улучшения пользовательских впечатлений среди более широких населенных групп. В данной статье мы представляем JMMMU (Japanese MMMU), первый крупномасштабный японский бенчмарк, разработанный для оценки LMM на задачах экспертного уровня, основанных на японском культурном контексте. Для облегчения всесторонней культурно-осознанной оценки JMMMU включает два взаимодополняющих подмножества: (i) культурно-агностическое (CA) подмножество, где выбраны культурно-независимые предметы (например, математика) и переведены на японский, что позволяет проводить сравнение один к одному с его англоязычным аналогом MMMU; и (ii) культурно-специфическое (CS) подмножество, включающее вновь созданные предметы, отражающие японский культурный контекст. Используя CA подмножество, мы наблюдаем снижение производительности многих LMM при оценке на японском языке, что полностью обусловлено языковыми различиями. Используя CS подмножество, мы выявляем их недостаточное понимание японской культуры. Кроме того, объединяя оба подмножества, мы определяем, что некоторые LMM хорошо справляются с CA подмножеством, но не с CS подмножеством, выявляя поверхностное понимание японского языка, лишенное глубокого культурного понимания. Мы надеемся, что данная работа не только поможет продвинуть производительность LMM на японском языке, но также послужит руководством по созданию высококачественных, культурно разнообразных бенчмарков для развития многоязычных LMM. Страница проекта: https://mmmu-japanese-benchmark.github.io/JMMMU/.
English
Accelerating research on Large Multimodal Models (LMMs) in non-English
languages is crucial for enhancing user experiences across broader populations.
In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale
Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the
Japanese cultural context. To facilitate comprehensive culture-aware
evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA)
subset, where the culture-independent subjects (e.g., Math) are selected and
translated into Japanese, enabling one-to-one comparison with its English
counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly
crafted subjects that reflect Japanese cultural context. Using the CA subset,
we observe performance drop in many LMMs when evaluated in Japanese, which is
purely attributable to language variation. Using the CS subset, we reveal their
inadequate Japanese cultural understanding. Further, by combining both subsets,
we identify that some LMMs perform well on the CA subset but not on the CS
subset, exposing a shallow understanding of the Japanese language that lacks
depth in cultural understanding. We hope this work will not only help advance
LMM performance in Japanese but also serve as a guideline to create
high-standard, culturally diverse benchmarks for multilingual LMM development.
The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.Summary
AI-Generated Summary