ChatPaper.aiChatPaper

グローバルMMLU: 多言語評価における文化的および言語的偏りの理解と対処

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

December 4, 2024
著者: Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker
cs.AI

要旨

多言語データセットにおける文化的偏りは、グローバルな基準としての効果に対して重要な課題を提起します。これらの偏りは、言語だけでなく、質問を解釈するために必要な文化的知識からも生じます。これにより、MMLUなどの翻訳されたデータセットの実用性が低下します。さらに、翻訳はしばしば質問の意味や明瞭さを歪める可能性がある人工物を導入します。多言語評価における一般的な慣行は、機械翻訳された評価セットに依存することですが、データセットを単に翻訳するだけではこれらの課題に対処するのに不十分です。本研究では、これらの問題が多言語評価とその後のモデルの性能に与える影響を追跡します。最先端のオープンおよびプロプライエタリなモデルの大規模な評価により、MMLUにおける進展は西洋中心の概念を学ぶことに大きく依存していることが示され、すべての質問の28%が文化的に敏感な知識を必要とすることが明らかになりました。さらに、地理的知識が必要な質問に関しては、驚異的な84.9%が北米またはヨーロッパ地域に焦点を当てています。モデルの評価ランキングは、文化的に敏感とアジャイルとして注釈付けされた質問の全体またはサブセットで評価されるかによって変化し、翻訳されたMMLUに盲目的に依存することでモデルのランキングが歪むことが示されます。私たちは、改良されたMMLUであるGlobal-MMLUをリリースしました。このGlobal-MMLUは42言語で評価カバレッジを持ち、翻訳品質を検証するために補償された専門家やコミュニティの注釈付け者と積極的に関わりながら、元のデータセットに存在する文化的偏りを厳密に評価することで全体的な品質を向上させました。この包括的なGlobal-MMLUセットには、文化的に敏感なおよび文化的に中立なサブセットが指定されており、より包括的で完全な評価を可能にしています。
English
Cultural biases in multilingual datasets pose significant challenges for their effectiveness as global benchmarks. These biases stem not only from language but also from the cultural knowledge required to interpret questions, reducing the practical utility of translated datasets like MMLU. Furthermore, translation often introduces artifacts that can distort the meaning or clarity of questions in the target language. A common practice in multilingual evaluation is to rely on machine-translated evaluation sets, but simply translating a dataset is insufficient to address these challenges. In this work, we trace the impact of both of these issues on multilingual evaluations and ensuing model performances. Our large-scale evaluation of state-of-the-art open and proprietary models illustrates that progress on MMLU depends heavily on learning Western-centric concepts, with 28% of all questions requiring culturally sensitive knowledge. Moreover, for questions requiring geographic knowledge, an astounding 84.9% focus on either North American or European regions. Rankings of model evaluations change depending on whether they are evaluated on the full portion or the subset of questions annotated as culturally sensitive, showing the distortion to model rankings when blindly relying on translated MMLU. We release Global-MMLU, an improved MMLU with evaluation coverage across 42 languages -- with improved overall quality by engaging with compensated professional and community annotators to verify translation quality while also rigorously evaluating cultural biases present in the original dataset. This comprehensive Global-MMLU set also includes designated subsets labeled as culturally sensitive and culturally agnostic to allow for more holistic, complete evaluation.

Summary

AI-Generated Summary

PDF192December 6, 2024