MMLU mondial : Compréhension et traitement des biais culturels et linguistiques dans l'évaluation multilingue
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation
December 4, 2024
Auteurs: Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker
cs.AI
Résumé
Les biais culturels dans les ensembles de données multilingues posent des défis significatifs pour leur efficacité en tant que références mondiales. Ces biais proviennent non seulement de la langue, mais aussi des connaissances culturelles nécessaires pour interpréter les questions, réduisant ainsi l'utilité pratique des ensembles de données traduits tels que le MMLU. De plus, la traduction introduit souvent des artefacts qui peuvent déformer le sens ou la clarté des questions dans la langue cible. Une pratique courante dans l'évaluation multilingue est de s'appuyer sur des ensembles d'évaluation traduits par machine, mais la simple traduction d'un ensemble de données est insuffisante pour relever ces défis. Dans ce travail, nous examinons l'impact de ces deux problèmes sur les évaluations multilingues et les performances des modèles qui en découlent. Notre évaluation à grande échelle des modèles ouverts et propriétaires de pointe illustre que les progrès sur le MMLU dépendent fortement de l'apprentissage de concepts centrés sur l'Occident, avec 28 % de toutes les questions nécessitant des connaissances culturellement sensibles. De plus, pour les questions nécessitant des connaissances géographiques, un impressionnant 84,9 % se concentrent sur les régions nord-américaines ou européennes. Les classements des évaluations des modèles changent en fonction de s'ils sont évalués sur la totalité ou le sous-ensemble des questions annotées comme culturellement sensibles, montrant la distorsion des classements des modèles lorsqu'on se fie aveuglément au MMLU traduit. Nous publions Global-MMLU, un MMLU amélioré avec une couverture d'évaluation dans 42 langues -- avec une qualité globale améliorée en collaborant avec des annotateurs professionnels et communautaires rémunérés pour vérifier la qualité de la traduction tout en évaluant rigoureusement les biais culturels présents dans l'ensemble de données d'origine. Cet ensemble Global-MMLU complet comprend également des sous-ensembles désignés comme culturellement sensibles et culturellement agnostiques pour permettre une évaluation plus holistique et complète.
English
Cultural biases in multilingual datasets pose significant challenges for
their effectiveness as global benchmarks. These biases stem not only from
language but also from the cultural knowledge required to interpret questions,
reducing the practical utility of translated datasets like MMLU. Furthermore,
translation often introduces artifacts that can distort the meaning or clarity
of questions in the target language. A common practice in multilingual
evaluation is to rely on machine-translated evaluation sets, but simply
translating a dataset is insufficient to address these challenges. In this
work, we trace the impact of both of these issues on multilingual evaluations
and ensuing model performances. Our large-scale evaluation of state-of-the-art
open and proprietary models illustrates that progress on MMLU depends heavily
on learning Western-centric concepts, with 28% of all questions requiring
culturally sensitive knowledge. Moreover, for questions requiring geographic
knowledge, an astounding 84.9% focus on either North American or European
regions. Rankings of model evaluations change depending on whether they are
evaluated on the full portion or the subset of questions annotated as
culturally sensitive, showing the distortion to model rankings when blindly
relying on translated MMLU. We release Global-MMLU, an improved MMLU with
evaluation coverage across 42 languages -- with improved overall quality by
engaging with compensated professional and community annotators to verify
translation quality while also rigorously evaluating cultural biases present in
the original dataset. This comprehensive Global-MMLU set also includes
designated subsets labeled as culturally sensitive and culturally agnostic to
allow for more holistic, complete evaluation.Summary
AI-Generated Summary