ChatPaper.aiChatPaper

Inclure : Évaluation de la compréhension multilingue du langage avec des connaissances régionales

INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

November 29, 2024
Auteurs: Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut
cs.AI

Résumé

La différence de performance des grands modèles de langage (LLM) entre les langues entrave leur déploiement efficace dans de nombreuses régions, limitant la valeur économique et sociétale potentielle des outils d'IA générative dans de nombreuses communautés. Cependant, le développement de LLM fonctionnels dans de nombreuses langues (c'est-à-dire, des LLM multilingues) est bloqué par le manque de ressources d'évaluation de haute qualité dans des langues autres que l'anglais. De plus, les pratiques actuelles dans la construction de bancs d'essai multilingues traduisent souvent des ressources en anglais, ignorant les connaissances régionales et culturelles des environnements dans lesquels les systèmes multilingues seraient utilisés. Dans ce travail, nous construisons une suite d'évaluation de 197 243 paires de questions-réponses à partir de sources d'examens locaux pour mesurer les capacités des LLM multilingues dans divers contextes régionaux. Notre nouvelle ressource, INCLUDE, est un banc d'essai complet centré sur la connaissance et le raisonnement à travers 44 langues écrites qui évalue les LLM multilingues pour leur performance dans les environnements linguistiques réels où ils seraient déployés.
English
The performance differential of large language models (LLM) between languages hinders their effective deployment in many regions, inhibiting the potential economic and societal value of generative AI tools in many communities. However, the development of functional LLMs in many languages (\ie, multilingual LLMs) is bottlenecked by the lack of high-quality evaluation resources in languages other than English. Moreover, current practices in multilingual benchmark construction often translate English resources, ignoring the regional and cultural knowledge of the environments in which multilingual systems would be used. In this work, we construct an evaluation suite of 197,243 QA pairs from local exam sources to measure the capabilities of multilingual LLMs in a variety of regional contexts. Our novel resource, INCLUDE, is a comprehensive knowledge- and reasoning-centric benchmark across 44 written languages that evaluates multilingual LLMs for performance in the actual language environments where they would be deployed.

Summary

AI-Generated Summary

PDF142December 3, 2024