地域知識を活用した多言語言語理解の評価
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge
November 29, 2024
著者: Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut
cs.AI
要旨
大規模言語モデル(LLM)の性能差は、多くの地域での効果的な展開を妨げ、多くのコミュニティにおける生成AIツールの経済的および社会的価値を抑制しています。ただし、多言語LLMの機能的な開発は、英語以外の言語における高品質な評価リソースの不足によってボトルネックとなっています。さらに、現在の多言語ベンチマーク構築の実践では、多言語システムが使用される環境の地域的および文化的知識を無視し、英語のリソースを翻訳することが一般的です。本研究では、地元の試験ソースから197,243の質問と回答ペアを収集し、多言語LLMの能力をさまざまな地域コンテキストで評価するための評価スイートを構築します。当社の新しいリソースである「INCLUDE」は、44の書き言葉を対象とした包括的な知識および推論中心のベンチマークであり、多言語LLMの実際の言語環境における性能を評価します。
English
The performance differential of large language models (LLM) between languages
hinders their effective deployment in many regions, inhibiting the potential
economic and societal value of generative AI tools in many communities.
However, the development of functional LLMs in many languages (\ie,
multilingual LLMs) is bottlenecked by the lack of high-quality evaluation
resources in languages other than English. Moreover, current practices in
multilingual benchmark construction often translate English resources, ignoring
the regional and cultural knowledge of the environments in which multilingual
systems would be used. In this work, we construct an evaluation suite of
197,243 QA pairs from local exam sources to measure the capabilities of
multilingual LLMs in a variety of regional contexts. Our novel resource,
INCLUDE, is a comprehensive knowledge- and reasoning-centric benchmark across
44 written languages that evaluates multilingual LLMs for performance in the
actual language environments where they would be deployed.Summary
AI-Generated Summary