ChatPaper.aiChatPaper

MEXA: Multilinguale Evaluatie van Engels-gecentreerde LLM's via Cross-linguale Alignering

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

October 8, 2024
Auteurs: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze
cs.AI

Samenvatting

Engels-gecentreerde grote taalmodellen (LLM's) tonen vaak sterke meertalige mogelijkheden. De meertalige prestaties van deze modellen blijven echter onduidelijk en worden niet grondig geëvalueerd voor veel talen. De meeste benchmarks voor meertaligheid richten zich op klassieke NLP-taken of bestrijken een minimaal aantal talen. We introduceren MEXA, een methode om de meertalige mogelijkheden van vooraf getrainde Engels-gecentreerde LLM's te beoordelen met behulp van parallelle zinnen, die beschikbaar zijn voor meer talen dan bestaande downstream taken. MEXA maakt gebruik van het feit dat Engels-gecentreerde LLM's Engels gebruiken als een soort scharnierpunttaal in hun tussenliggende lagen. Het berekent de afstemming tussen Engels en niet-Engelse talen met behulp van parallelle zinnen om de overdracht van taalbegrip van Engels naar andere talen te evalueren. Deze afstemming kan worden gebruikt om de modelprestaties in andere talen te schatten. We voeren studies uit met verschillende parallelle datasets (FLORES-200 en Bijbel), modellen (Llama-familie, Gemma-familie, Mistral en OLMo), en gevestigde downstream taken (Belebele, m-MMLU en m-ARC). We verkennen verschillende methoden om embeddings te berekenen in alleen-decodermodellen. Onze resultaten tonen aan dat MEXA, in de standaardinstellingen, een statistisch significante gemiddelde Pearson-correlatie van 0.90 behaalt met drie gevestigde downstream taken over negen modellen en twee parallelle datasets. Dit suggereert dat MEXA een betrouwbare methode is voor het schatten van de meertalige mogelijkheden van Engels-gecentreerde LLM's, waardoor een duidelijker inzicht wordt geboden in hun meertalige potentieel en de interne werking van LLM's. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.
English
English-centric large language models (LLMs) often show strong multilingual capabilities. However, the multilingual performance of these models remains unclear and is not thoroughly evaluated for many languages. Most benchmarks for multilinguality focus on classic NLP tasks, or cover a minimal number of languages. We introduce MEXA, a method for assessing the multilingual capabilities of pre-trained English-centric LLMs using parallel sentences, which are available for more languages than existing downstream tasks. MEXA leverages the fact that English-centric LLMs use English as a kind of pivot language in their intermediate layers. It computes the alignment between English and non-English languages using parallel sentences to evaluate the transfer of language understanding from English to other languages. This alignment can be used to estimate model performance in other languages. We conduct studies using various parallel datasets (FLORES-200 and Bible), models (Llama family, Gemma family, Mistral, and OLMo), and established downstream tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute embeddings in decoder-only models. Our results show that MEXA, in its default settings, achieves a statistically significant average Pearson correlation of 0.90 with three established downstream tasks across nine models and two parallel datasets. This suggests that MEXA is a reliable method for estimating the multilingual capabilities of English-centric LLMs, providing a clearer understanding of their multilingual potential and the inner workings of LLMs. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.

Summary

AI-Generated Summary

PDF32November 16, 2024