ChatPaper.aiChatPaper

JMMMU: 日本語マッシブマルチディシプリンマルチモーダル理解のための文化認識評価ベンチマーク

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

October 22, 2024
著者: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI

要旨

非英語の大規模多文化モデル(LMMs)に関する研究を加速させることは、より広範な人口に向けたユーザーエクスペリエンスの向上に不可欠です。本論文では、日本文化の文脈に基づいた専門レベルのタスクでLMMsを評価するために設計された初の大規模な日本語ベンチマークであるJMMMU(Japanese MMMU)を紹介します。包括的な文化に配慮した評価を促進するため、JMMMUには2つの補完的なサブセットがあります:(i)文化に依存しない(CA)サブセットでは、文化に依存しない科目(例:数学など)が選択され、日本語に翻訳され、英語の対応物であるMMMとの一対一の比較が可能となっています;および(ii)文化固有(CS)サブセットは、日本文化の文脈を反映した新しく作成された科目から構成されています。CAサブセットを使用すると、多くのLMMsが日本語で評価された際に性能が低下することが観察され、これは純粋に言語の違いに起因しています。CSサブセットを使用すると、彼らの不十分な日本語文化理解が明らかになります。さらに、両方のサブセットを組み合わせることで、一部のLMMsがCAサブセットで優れた性能を発揮する一方でCSサブセットでそうでないことが判明し、日本語の理解が浅く、文化理解に深みが欠けていることが露呈されます。この研究が日本語でのLMMの性能向上に貢献するだけでなく、多言語LMM開発のための高水準で文化的に多様なベンチマークの作成の指針として機能することを期待しています。プロジェクトページはhttps://mmmu-japanese-benchmark.github.io/JMMMU/ です。
English
Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

Summary

AI-Generated Summary

PDF152November 16, 2024