ChatPaper.aiChatPaper

MEXA: Valutazione Multilingue dei Modelli Linguistici Basati sull'Inglese tramite Allineamento Cross-Lingua

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

October 8, 2024
Autori: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) centrati sull'inglese spesso mostrano forti capacità multilingue. Tuttavia, le prestazioni multilingue di questi modelli rimangono poco chiare e non sono state valutate in modo approfondito per molte lingue. La maggior parte dei benchmark per la multilinguate si concentra su compiti classici di elaborazione del linguaggio naturale, o copre un numero minimo di lingue. Introduciamo MEXA, un metodo per valutare le capacità multilingue dei LLM preaddestrati centrati sull'inglese utilizzando frasi parallele, disponibili per un maggior numero di lingue rispetto ai compiti successivi esistenti. MEXA sfrutta il fatto che i LLM centrati sull'inglese utilizzano l'inglese come una sorta di lingua pivot nei loro strati intermedi. Calcola l'allineamento tra l'inglese e le lingue non inglesi utilizzando frasi parallele per valutare il trasferimento della comprensione linguistica dall'inglese ad altre lingue. Questo allineamento può essere utilizzato per stimare le prestazioni del modello in altre lingue. Conduciamo studi utilizzando vari set di dati paralleli (FLORES-200 e Bibbia), modelli (famiglia Llama, famiglia Gemma, Mistral e OLMo) e compiti successivi consolidati (Belebele, m-MMLU e m-ARC). Esploriamo diversi metodi per calcolare i vettori di contestualizzazione nei modelli basati solo sul decoder. I nostri risultati mostrano che MEXA, con le impostazioni predefinite, raggiunge una correlazione di Pearson media statisticamente significativa di 0,90 con tre compiti successivi consolidati su nove modelli e due set di dati paralleli. Ciò suggerisce che MEXA è un metodo affidabile per stimare le capacità multilingue dei LLM centrati sull'inglese, fornendo una comprensione più chiara del loro potenziale multilingue e del funzionamento interno dei LLM. Classifica: https://huggingface.co/spaces/cis-lmu/Mexa, Codice: https://github.com/cisnlp/Mexa.
English
English-centric large language models (LLMs) often show strong multilingual capabilities. However, the multilingual performance of these models remains unclear and is not thoroughly evaluated for many languages. Most benchmarks for multilinguality focus on classic NLP tasks, or cover a minimal number of languages. We introduce MEXA, a method for assessing the multilingual capabilities of pre-trained English-centric LLMs using parallel sentences, which are available for more languages than existing downstream tasks. MEXA leverages the fact that English-centric LLMs use English as a kind of pivot language in their intermediate layers. It computes the alignment between English and non-English languages using parallel sentences to evaluate the transfer of language understanding from English to other languages. This alignment can be used to estimate model performance in other languages. We conduct studies using various parallel datasets (FLORES-200 and Bible), models (Llama family, Gemma family, Mistral, and OLMo), and established downstream tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute embeddings in decoder-only models. Our results show that MEXA, in its default settings, achieves a statistically significant average Pearson correlation of 0.90 with three established downstream tasks across nine models and two parallel datasets. This suggests that MEXA is a reliable method for estimating the multilingual capabilities of English-centric LLMs, providing a clearer understanding of their multilingual potential and the inner workings of LLMs. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.
PDF32November 16, 2024