ChatPaper.aiChatPaper

MEXA: Avaliação Multilíngue de Modelos de Linguagem com Foco em Inglês por meio de Alinhamento Cruzado

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

October 8, 2024
Autores: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze
cs.AI

Resumo

Os modelos de linguagem de grande escala (LLMs) centrados no inglês frequentemente demonstram fortes capacidades multilíngues. No entanto, o desempenho multilíngue desses modelos permanece obscuro e não é amplamente avaliado para muitos idiomas. A maioria dos benchmarks para multilinguismo se concentra em tarefas clássicas de PNL, ou abrange um número mínimo de idiomas. Apresentamos o MEXA, um método para avaliar as capacidades multilíngues de LLMs pré-treinados centrados no inglês usando frases paralelas, disponíveis para mais idiomas do que as tarefas subsequentes existentes. O MEXA aproveita o fato de que os LLMs centrados no inglês usam o inglês como uma espécie de idioma pivô em suas camadas intermediárias. Ele calcula o alinhamento entre o inglês e idiomas não ingleses usando frases paralelas para avaliar a transferência de compreensão de idiomas do inglês para outros idiomas. Esse alinhamento pode ser usado para estimar o desempenho do modelo em outros idiomas. Realizamos estudos usando vários conjuntos de dados paralelos (FLORES-200 e Bíblia), modelos (família Llama, família Gemma, Mistral e OLMo) e tarefas subsequentes estabelecidas (Belebele, m-MMLU e m-ARC). Exploramos diferentes métodos para calcular embeddings em modelos somente de decodificação. Nossos resultados mostram que o MEXA, em suas configurações padrão, alcança uma correlação de Pearson média estatisticamente significativa de 0,90 com três tarefas subsequentes estabelecidas em nove modelos e dois conjuntos de dados paralelos. Isso sugere que o MEXA é um método confiável para estimar as capacidades multilíngues de LLMs centrados no inglês, proporcionando uma compreensão mais clara de seu potencial multilíngue e do funcionamento interno dos LLMs. Tabela de classificação: https://huggingface.co/spaces/cis-lmu/Mexa, Código: https://github.com/cisnlp/Mexa.
English
English-centric large language models (LLMs) often show strong multilingual capabilities. However, the multilingual performance of these models remains unclear and is not thoroughly evaluated for many languages. Most benchmarks for multilinguality focus on classic NLP tasks, or cover a minimal number of languages. We introduce MEXA, a method for assessing the multilingual capabilities of pre-trained English-centric LLMs using parallel sentences, which are available for more languages than existing downstream tasks. MEXA leverages the fact that English-centric LLMs use English as a kind of pivot language in their intermediate layers. It computes the alignment between English and non-English languages using parallel sentences to evaluate the transfer of language understanding from English to other languages. This alignment can be used to estimate model performance in other languages. We conduct studies using various parallel datasets (FLORES-200 and Bible), models (Llama family, Gemma family, Mistral, and OLMo), and established downstream tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute embeddings in decoder-only models. Our results show that MEXA, in its default settings, achieves a statistically significant average Pearson correlation of 0.90 with three established downstream tasks across nine models and two parallel datasets. This suggests that MEXA is a reliable method for estimating the multilingual capabilities of English-centric LLMs, providing a clearer understanding of their multilingual potential and the inner workings of LLMs. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.

Summary

AI-Generated Summary

PDF32November 16, 2024