Bewertung der mehrsprachigen Sprachverarbeitung mit regionalem Wissen

Zusammenfassung

Die Leistungsunterschiede großer Sprachmodelle (LLM) zwischen Sprachen behindern ihre effektive Bereitstellung in vielen Regionen und hemmen das potenzielle wirtschaftliche und gesellschaftliche Wert von generativen KI-Tools in vielen Gemeinschaften. Die Entwicklung funktionaler LLMs in vielen Sprachen (d.h. mehrsprachige LLMs) wird jedoch durch den Mangel an hochwertigen Evaluationsressourcen in Sprachen außerhalb des Englischen behindert. Darüber hinaus übersetzen aktuelle Praktiken bei der Konstruktion mehrsprachiger Benchmarks oft englische Ressourcen, wodurch das regionale und kulturelle Wissen der Umgebungen ignoriert wird, in denen mehrsprachige Systeme eingesetzt werden sollen. In dieser Arbeit konstruieren wir eine Evaluierungssuite von 197.243 Frage-Antwort-Paaren aus lokalen Prüfungsquellen, um die Fähigkeiten mehrsprachiger LLMs in verschiedenen regionalen Kontexten zu messen. Unsere neuartige Ressource, INCLUDE, ist ein umfassender Wissens- und Schlussfolgerungs-basierter Benchmark in 44 Schriftsprachen, der mehrsprachige LLMs auf ihre Leistungsfähigkeit in den tatsächlichen Sprachumgebungen, in denen sie eingesetzt werden sollen, evaluiert.

English

The performance differential of large language models (LLM) between languages hinders their effective deployment in many regions, inhibiting the potential economic and societal value of generative AI tools in many communities. However, the development of functional LLMs in many languages (\ie, multilingual LLMs) is bottlenecked by the lack of high-quality evaluation resources in languages other than English. Moreover, current practices in multilingual benchmark construction often translate English resources, ignoring the regional and cultural knowledge of the environments in which multilingual systems would be used. In this work, we construct an evaluation suite of 197,243 QA pairs from local exam sources to measure the capabilities of multilingual LLMs in a variety of regional contexts. Our novel resource, INCLUDE, is a comprehensive knowledge- and reasoning-centric benchmark across 44 written languages that evaluates multilingual LLMs for performance in the actual language environments where they would be deployed.