ChatPaper.aiChatPaper

MEXA: Multilinguale Evaluation von englisch-zentrierten LLMs durch kreuzsprachliche Ausrichtung

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

October 8, 2024
Autoren: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze
cs.AI

Zusammenfassung

Englisch-zentrierte große Sprachmodelle (LLMs) zeigen oft starke multilinguale Fähigkeiten. Die multilinguale Leistung dieser Modelle ist jedoch noch unklar und wird für viele Sprachen nicht gründlich bewertet. Die meisten Benchmarks für Multilingualität konzentrieren sich auf klassische NLP-Aufgaben oder decken nur eine minimale Anzahl von Sprachen ab. Wir stellen MEXA vor, eine Methode zur Bewertung der multilingualen Fähigkeiten von vorab trainierten Englisch-zentrierten LLMs unter Verwendung von parallelen Sätzen, die für mehr Sprachen verfügbar sind als bestehende Endaufgaben. MEXA nutzt die Tatsache, dass Englisch-zentrierte LLMs Englisch als eine Art Pivot-Sprache in ihren Zwischenschichten verwenden. Es berechnet die Ausrichtung zwischen Englisch und nicht-englischen Sprachen unter Verwendung paralleler Sätze, um den Transfer des Sprachverständnisses von Englisch auf andere Sprachen zu bewerten. Diese Ausrichtung kann verwendet werden, um die Modellleistung in anderen Sprachen abzuschätzen. Wir führen Studien unter Verwendung verschiedener paralleler Datensätze (FLORES-200 und Bible), Modelle (Llama-Familie, Gemma-Familie, Mistral und OLMo) und etablierter Endaufgaben (Belebele, m-MMLU und m-ARC) durch. Wir untersuchen verschiedene Methoden zur Berechnung von Einbettungen in Decoder-Only-Modellen. Unsere Ergebnisse zeigen, dass MEXA in den Standardeinstellungen eine statistisch signifikante durchschnittliche Pearson-Korrelation von 0,90 mit drei etablierten Endaufgaben über neun Modelle und zwei parallele Datensätze erzielt. Dies legt nahe, dass MEXA eine zuverlässige Methode zur Schätzung der multilingualen Fähigkeiten von Englisch-zentrierten LLMs ist und ein klareres Verständnis ihres multilingualen Potenzials und der Funktionsweise von LLMs bietet. Bestenliste: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.
English
English-centric large language models (LLMs) often show strong multilingual capabilities. However, the multilingual performance of these models remains unclear and is not thoroughly evaluated for many languages. Most benchmarks for multilinguality focus on classic NLP tasks, or cover a minimal number of languages. We introduce MEXA, a method for assessing the multilingual capabilities of pre-trained English-centric LLMs using parallel sentences, which are available for more languages than existing downstream tasks. MEXA leverages the fact that English-centric LLMs use English as a kind of pivot language in their intermediate layers. It computes the alignment between English and non-English languages using parallel sentences to evaluate the transfer of language understanding from English to other languages. This alignment can be used to estimate model performance in other languages. We conduct studies using various parallel datasets (FLORES-200 and Bible), models (Llama family, Gemma family, Mistral, and OLMo), and established downstream tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute embeddings in decoder-only models. Our results show that MEXA, in its default settings, achieves a statistically significant average Pearson correlation of 0.90 with three established downstream tasks across nine models and two parallel datasets. This suggests that MEXA is a reliable method for estimating the multilingual capabilities of English-centric LLMs, providing a clearer understanding of their multilingual potential and the inner workings of LLMs. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.

Summary

AI-Generated Summary

PDF32November 16, 2024