Incluir: Evaluación de la Comprensión del Lenguaje Multilingüe con Conocimiento Regional
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge
November 29, 2024
Autores: Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut
cs.AI
Resumen
La diferencia de rendimiento de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) entre idiomas obstaculiza su despliegue efectivo en muchas regiones, limitando el potencial valor económico y social de las herramientas de IA generativa en muchas comunidades. Sin embargo, el desarrollo de LLMs funcionales en muchos idiomas (es decir, LLMs multilingües) se ve obstaculizado por la falta de recursos de evaluación de alta calidad en idiomas distintos al inglés. Además, las prácticas actuales en la construcción de bancos de pruebas multilingües a menudo traducen recursos en inglés, ignorando el conocimiento regional y cultural de los entornos en los que se utilizarían los sistemas multilingües. En este trabajo, construimos un conjunto de evaluación de 197,243 pares de preguntas y respuestas de fuentes locales de exámenes para medir las capacidades de los LLMs multilingües en una variedad de contextos regionales. Nuestro nuevo recurso, INCLUDE, es un banco de pruebas integral centrado en el conocimiento y el razonamiento en 44 idiomas escritos que evalúa el rendimiento de los LLMs multilingües en los entornos lingüísticos reales donde se desplegarían.
English
The performance differential of large language models (LLM) between languages
hinders their effective deployment in many regions, inhibiting the potential
economic and societal value of generative AI tools in many communities.
However, the development of functional LLMs in many languages (\ie,
multilingual LLMs) is bottlenecked by the lack of high-quality evaluation
resources in languages other than English. Moreover, current practices in
multilingual benchmark construction often translate English resources, ignoring
the regional and cultural knowledge of the environments in which multilingual
systems would be used. In this work, we construct an evaluation suite of
197,243 QA pairs from local exam sources to measure the capabilities of
multilingual LLMs in a variety of regional contexts. Our novel resource,
INCLUDE, is a comprehensive knowledge- and reasoning-centric benchmark across
44 written languages that evaluates multilingual LLMs for performance in the
actual language environments where they would be deployed.