MEXA: Evaluación Multilingüe de Modelos de Lenguaje con Enfoque en Inglés a través de Alineación Cruzada
MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment
October 8, 2024
Autores: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) centrados en el inglés a menudo muestran sólidas capacidades multilingües. Sin embargo, el rendimiento multilingüe de estos modelos sigue siendo incierto y no se evalúa exhaustivamente para muchos idiomas. La mayoría de los puntos de referencia para la multilingüidad se centran en tareas clásicas de PNL, o abarcan un número mínimo de idiomas. Presentamos MEXA, un método para evaluar las capacidades multilingües de LLMs pre-entrenados centrados en el inglés utilizando oraciones paralelas, disponibles para más idiomas que las tareas posteriores existentes. MEXA aprovecha el hecho de que los LLMs centrados en el inglés utilizan el inglés como una especie de idioma pivote en sus capas intermedias. Calcula la alineación entre el inglés y los idiomas no ingleses utilizando oraciones paralelas para evaluar la transferencia de comprensión del lenguaje del inglés a otros idiomas. Esta alineación se puede utilizar para estimar el rendimiento del modelo en otros idiomas. Realizamos estudios utilizando varios conjuntos de datos paralelos (FLORES-200 y la Biblia), modelos (familia Llama, familia Gemma, Mistral y OLMo), y tareas posteriores establecidas (Belebele, m-MMLU y m-ARC). Exploramos diferentes métodos para calcular incrustaciones en modelos de solo decodificador. Nuestros resultados muestran que MEXA, en su configuración predeterminada, logra una correlación de Pearson promedio estadísticamente significativa de 0.90 con tres tareas posteriores establecidas en nueve modelos y dos conjuntos de datos paralelos. Esto sugiere que MEXA es un método confiable para estimar las capacidades multilingües de los LLMs centrados en el inglés, proporcionando una comprensión más clara de su potencial multilingüe y el funcionamiento interno de los LLMs. Tabla de clasificación: https://huggingface.co/spaces/cis-lmu/Mexa, Código: https://github.com/cisnlp/Mexa.
English
English-centric large language models (LLMs) often show strong multilingual
capabilities. However, the multilingual performance of these models remains
unclear and is not thoroughly evaluated for many languages. Most benchmarks for
multilinguality focus on classic NLP tasks, or cover a minimal number of
languages. We introduce MEXA, a method for assessing the multilingual
capabilities of pre-trained English-centric LLMs using parallel sentences,
which are available for more languages than existing downstream tasks. MEXA
leverages the fact that English-centric LLMs use English as a kind of pivot
language in their intermediate layers. It computes the alignment between
English and non-English languages using parallel sentences to evaluate the
transfer of language understanding from English to other languages. This
alignment can be used to estimate model performance in other languages. We
conduct studies using various parallel datasets (FLORES-200 and Bible), models
(Llama family, Gemma family, Mistral, and OLMo), and established downstream
tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute
embeddings in decoder-only models. Our results show that MEXA, in its default
settings, achieves a statistically significant average Pearson correlation of
0.90 with three established downstream tasks across nine models and two
parallel datasets. This suggests that MEXA is a reliable method for estimating
the multilingual capabilities of English-centric LLMs, providing a clearer
understanding of their multilingual potential and the inner workings of LLMs.
Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code:
https://github.com/cisnlp/Mexa.Summary
AI-Generated Summary