ChatPaper.aiChatPaper

JMMMU: Um Benchmark Japonês de Compreensão Multidisciplinar e Multimodal em Massa para Avaliação Consciente da Cultura

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

October 22, 2024
Autores: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
cs.AI

Resumo

Acelerar a pesquisa sobre Modelos Multimodais Grandes (LMMs) em idiomas não ingleses é crucial para aprimorar as experiências do usuário em populações mais amplas. Neste artigo, apresentamos o JMMMU (Japanese MMMU), o primeiro benchmark japonês em larga escala projetado para avaliar LMMs em tarefas de nível especializado com base no contexto cultural japonês. Para facilitar uma avaliação abrangente consciente da cultura, o JMMMU apresenta dois subconjuntos complementares: (i) subconjunto agnóstico à cultura (CA), onde os assuntos independentes da cultura (por exemplo, Matemática) são selecionados e traduzidos para o japonês, permitindo uma comparação direta com seu equivalente em inglês, o MMMU; e (ii) subconjunto específico da cultura (CS), composto por assuntos recém-criados que refletem o contexto cultural japonês. Utilizando o subconjunto CA, observamos uma queda de desempenho em muitos LMMs quando avaliados em japonês, atribuível puramente à variação linguística. Com o subconjunto CS, revelamos a inadequada compreensão cultural japonesa desses modelos. Além disso, ao combinar ambos os subconjuntos, identificamos que alguns LMMs têm bom desempenho no subconjunto CA, mas não no subconjunto CS, expondo uma compreensão superficial do idioma japonês que carece de profundidade na compreensão cultural. Esperamos que este trabalho não apenas ajude a avançar o desempenho dos LMMs em japonês, mas também sirva como um guia para criar benchmarks culturalmente diversos e de alto padrão para o desenvolvimento de LMMs multilíngues. A página do projeto é https://mmmu-japanese-benchmark.github.io/JMMMU/.
English
Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

Summary

AI-Generated Summary

PDF152November 16, 2024