ChatPaper.aiChatPaper

MEXA : Évaluation multilingue des LLM centrés sur l'anglais via l'alignement cross-linguistique

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

October 8, 2024
Auteurs: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze
cs.AI

Résumé

Les modèles de langage larges (LLMs) centrés sur l'anglais montrent souvent de fortes capacités multilingues. Cependant, les performances multilingues de ces modèles restent floues et ne sont pas pleinement évaluées pour de nombreuses langues. La plupart des référentiels pour la multilinguisme se concentrent sur des tâches classiques de TAL, ou couvrent un nombre minimal de langues. Nous introduisons MEXA, une méthode pour évaluer les capacités multilingues des LLMs pré-entraînés centrés sur l'anglais en utilisant des phrases parallèles, disponibles pour plus de langues que les tâches ultérieures existantes. MEXA exploite le fait que les LLMs centrés sur l'anglais utilisent l'anglais comme une sorte de langue pivot dans leurs couches intermédiaires. Il calcule l'alignement entre l'anglais et les langues non anglaises en utilisant des phrases parallèles pour évaluer le transfert de la compréhension linguistique de l'anglais vers d'autres langues. Cet alignement peut être utilisé pour estimer les performances du modèle dans d'autres langues. Nous menons des études en utilisant divers ensembles de données parallèles (FLORES-200 et Bible), des modèles (famille Llama, famille Gemma, Mistral et OLMo) et des tâches ultérieures établies (Belebele, m-MMLU et m-ARC). Nous explorons différentes méthodes pour calculer les plongements dans les modèles à décodeur uniquement. Nos résultats montrent que MEXA, dans ses paramètres par défaut, atteint une corrélation de Pearson moyenne statistiquement significative de 0,90 avec trois tâches ultérieures établies sur neuf modèles et deux ensembles de données parallèles. Cela suggère que MEXA est une méthode fiable pour estimer les capacités multilingues des LLMs centrés sur l'anglais, offrant une compréhension plus claire de leur potentiel multilingue et du fonctionnement interne des LLMs. Tableau de classement : https://huggingface.co/spaces/cis-lmu/Mexa, Code : https://github.com/cisnlp/Mexa.
English
English-centric large language models (LLMs) often show strong multilingual capabilities. However, the multilingual performance of these models remains unclear and is not thoroughly evaluated for many languages. Most benchmarks for multilinguality focus on classic NLP tasks, or cover a minimal number of languages. We introduce MEXA, a method for assessing the multilingual capabilities of pre-trained English-centric LLMs using parallel sentences, which are available for more languages than existing downstream tasks. MEXA leverages the fact that English-centric LLMs use English as a kind of pivot language in their intermediate layers. It computes the alignment between English and non-English languages using parallel sentences to evaluate the transfer of language understanding from English to other languages. This alignment can be used to estimate model performance in other languages. We conduct studies using various parallel datasets (FLORES-200 and Bible), models (Llama family, Gemma family, Mistral, and OLMo), and established downstream tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute embeddings in decoder-only models. Our results show that MEXA, in its default settings, achieves a statistically significant average Pearson correlation of 0.90 with three established downstream tasks across nine models and two parallel datasets. This suggests that MEXA is a reliable method for estimating the multilingual capabilities of English-centric LLMs, providing a clearer understanding of their multilingual potential and the inner workings of LLMs. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.

Summary

AI-Generated Summary

PDF32November 16, 2024