MMLU Global: Comprendiendo y Abordando los Sesgos Culturales y Lingüísticos en la Evaluación Multilingüe
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation
December 4, 2024
Autores: Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker
cs.AI
Resumen
Los sesgos culturales en conjuntos de datos multilingües plantean desafíos significativos para su efectividad como puntos de referencia globales. Estos sesgos no solo provienen del idioma, sino también del conocimiento cultural necesario para interpretar preguntas, lo que reduce la utilidad práctica de conjuntos de datos traducidos como MMLU. Además, la traducción a menudo introduce artefactos que pueden distorsionar el significado o la claridad de las preguntas en el idioma de destino. Una práctica común en la evaluación multilingüe es depender de conjuntos de evaluación traducidos por máquina, pero simplemente traducir un conjunto de datos no es suficiente para abordar estos desafíos. En este trabajo, rastreamos el impacto de ambos problemas en las evaluaciones multilingües y en el rendimiento de los modelos resultantes. Nuestra evaluación a gran escala de modelos abiertos y propietarios de última generación ilustra que el progreso en MMLU depende en gran medida de aprender conceptos centrados en Occidente, con un 28% de todas las preguntas que requieren conocimiento culturalmente sensible. Además, para las preguntas que requieren conocimiento geográfico, un asombroso 84.9% se centra en regiones de América del Norte o Europa. Las clasificaciones de las evaluaciones de modelos cambian dependiendo de si se evalúan en la parte completa o en el subconjunto de preguntas anotadas como culturalmente sensibles, mostrando la distorsión en las clasificaciones de modelos al depender ciegamente de MMLU traducido. Lanzamos Global-MMLU, una versión mejorada de MMLU con cobertura de evaluación en 42 idiomas, con una calidad general mejorada al involucrar a anotadores profesionales y de la comunidad compensados para verificar la calidad de la traducción, al mismo tiempo que se evalúan rigurosamente los sesgos culturales presentes en el conjunto de datos original. Este completo conjunto Global-MMLU también incluye subconjuntos designados como culturalmente sensibles y culturalmente agnósticos para permitir una evaluación más holística y completa.
English
Cultural biases in multilingual datasets pose significant challenges for
their effectiveness as global benchmarks. These biases stem not only from
language but also from the cultural knowledge required to interpret questions,
reducing the practical utility of translated datasets like MMLU. Furthermore,
translation often introduces artifacts that can distort the meaning or clarity
of questions in the target language. A common practice in multilingual
evaluation is to rely on machine-translated evaluation sets, but simply
translating a dataset is insufficient to address these challenges. In this
work, we trace the impact of both of these issues on multilingual evaluations
and ensuing model performances. Our large-scale evaluation of state-of-the-art
open and proprietary models illustrates that progress on MMLU depends heavily
on learning Western-centric concepts, with 28% of all questions requiring
culturally sensitive knowledge. Moreover, for questions requiring geographic
knowledge, an astounding 84.9% focus on either North American or European
regions. Rankings of model evaluations change depending on whether they are
evaluated on the full portion or the subset of questions annotated as
culturally sensitive, showing the distortion to model rankings when blindly
relying on translated MMLU. We release Global-MMLU, an improved MMLU with
evaluation coverage across 42 languages -- with improved overall quality by
engaging with compensated professional and community annotators to verify
translation quality while also rigorously evaluating cultural biases present in
the original dataset. This comprehensive Global-MMLU set also includes
designated subsets labeled as culturally sensitive and culturally agnostic to
allow for more holistic, complete evaluation.Summary
AI-Generated Summary