MMLU Global: Comprendiendo y Abordando los Sesgos Culturales y Lingüísticos en la Evaluación Multilingüe

Resumen

Los sesgos culturales en conjuntos de datos multilingües plantean desafíos significativos para su efectividad como puntos de referencia globales. Estos sesgos no solo provienen del idioma, sino también del conocimiento cultural necesario para interpretar preguntas, lo que reduce la utilidad práctica de conjuntos de datos traducidos como MMLU. Además, la traducción a menudo introduce artefactos que pueden distorsionar el significado o la claridad de las preguntas en el idioma de destino. Una práctica común en la evaluación multilingüe es depender de conjuntos de evaluación traducidos por máquina, pero simplemente traducir un conjunto de datos no es suficiente para abordar estos desafíos. En este trabajo, rastreamos el impacto de ambos problemas en las evaluaciones multilingües y en el rendimiento de los modelos resultantes. Nuestra evaluación a gran escala de modelos abiertos y propietarios de última generación ilustra que el progreso en MMLU depende en gran medida de aprender conceptos centrados en Occidente, con un 28% de todas las preguntas que requieren conocimiento culturalmente sensible. Además, para las preguntas que requieren conocimiento geográfico, un asombroso 84.9% se centra en regiones de América del Norte o Europa. Las clasificaciones de las evaluaciones de modelos cambian dependiendo de si se evalúan en la parte completa o en el subconjunto de preguntas anotadas como culturalmente sensibles, mostrando la distorsión en las clasificaciones de modelos al depender ciegamente de MMLU traducido. Lanzamos Global-MMLU, una versión mejorada de MMLU con cobertura de evaluación en 42 idiomas, con una calidad general mejorada al involucrar a anotadores profesionales y de la comunidad compensados para verificar la calidad de la traducción, al mismo tiempo que se evalúan rigurosamente los sesgos culturales presentes en el conjunto de datos original. Este completo conjunto Global-MMLU también incluye subconjuntos designados como culturalmente sensibles y culturalmente agnósticos para permitir una evaluación más holística y completa.

English

Cultural biases in multilingual datasets pose significant challenges for their effectiveness as global benchmarks. These biases stem not only from language but also from the cultural knowledge required to interpret questions, reducing the practical utility of translated datasets like MMLU. Furthermore, translation often introduces artifacts that can distort the meaning or clarity of questions in the target language. A common practice in multilingual evaluation is to rely on machine-translated evaluation sets, but simply translating a dataset is insufficient to address these challenges. In this work, we trace the impact of both of these issues on multilingual evaluations and ensuing model performances. Our large-scale evaluation of state-of-the-art open and proprietary models illustrates that progress on MMLU depends heavily on learning Western-centric concepts, with 28% of all questions requiring culturally sensitive knowledge. Moreover, for questions requiring geographic knowledge, an astounding 84.9% focus on either North American or European regions. Rankings of model evaluations change depending on whether they are evaluated on the full portion or the subset of questions annotated as culturally sensitive, showing the distortion to model rankings when blindly relying on translated MMLU. We release Global-MMLU, an improved MMLU with evaluation coverage across 42 languages -- with improved overall quality by engaging with compensated professional and community annotators to verify translation quality while also rigorously evaluating cultural biases present in the original dataset. This comprehensive Global-MMLU set also includes designated subsets labeled as culturally sensitive and culturally agnostic to allow for more holistic, complete evaluation.

MMLU Global: Comprendiendo y Abordando los Sesgos Culturales y Lingüísticos en la Evaluación Multilingüe

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

Resumen

Support