ChatPaper.aiChatPaper

MEXA: Многоязычная оценка англоцентричных LLM с использованием кросс-языкового выравнивания

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

October 8, 2024
Авторы: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze
cs.AI

Аннотация

Модели больших языковых моделей (LLM) с ориентацией на английский язык часто проявляют сильные мультиязычные возможности. Однако мультиязычная производительность этих моделей остается неясной и не подвергалась тщательной оценке для многих языков. Большинство бенчмарков для мультиязычности сосредоточены на классических задачах обработки естественного языка или охватывают минимальное количество языков. Мы представляем MEXA, метод для оценки мультиязычных возможностей предварительно обученных англо-центричных LLM с использованием параллельных предложений, доступных для большего количества языков, чем существующие задачи. MEXA использует тот факт, что англо-центричные LLM используют английский как своего рода опорный язык в промежуточных слоях. Он вычисляет соответствие между английским и неанглийскими языками с использованием параллельных предложений для оценки передачи языкового понимания от английского к другим языкам. Это соответствие может быть использовано для оценки производительности модели на других языках. Мы проводим исследования с использованием различных параллельных наборов данных (FLORES-200 и Библия), моделей (семейство Llama, семейство Gemma, Mistral и OLMo) и установленных задач (Belebele, m-MMLU и m-ARC). Мы исследуем различные методы вычисления вложений в моделях только с декодером. Наши результаты показывают, что MEXA в своих стандартных настройках достигает статистически значимой средней корреляции Пирсона 0.90 с тремя установленными задачами по двум параллельным наборам данных и девятью моделями. Это позволяет сделать вывод о том, что MEXA является надежным методом для оценки мультиязычных возможностей англо-центричных LLM, обеспечивая более ясное представление о их мультиязычном потенциале и внутренних механизмах LLM. Таблица лидеров: https://huggingface.co/spaces/cis-lmu/Mexa, Код: https://github.com/cisnlp/Mexa.
English
English-centric large language models (LLMs) often show strong multilingual capabilities. However, the multilingual performance of these models remains unclear and is not thoroughly evaluated for many languages. Most benchmarks for multilinguality focus on classic NLP tasks, or cover a minimal number of languages. We introduce MEXA, a method for assessing the multilingual capabilities of pre-trained English-centric LLMs using parallel sentences, which are available for more languages than existing downstream tasks. MEXA leverages the fact that English-centric LLMs use English as a kind of pivot language in their intermediate layers. It computes the alignment between English and non-English languages using parallel sentences to evaluate the transfer of language understanding from English to other languages. This alignment can be used to estimate model performance in other languages. We conduct studies using various parallel datasets (FLORES-200 and Bible), models (Llama family, Gemma family, Mistral, and OLMo), and established downstream tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute embeddings in decoder-only models. Our results show that MEXA, in its default settings, achieves a statistically significant average Pearson correlation of 0.90 with three established downstream tasks across nine models and two parallel datasets. This suggests that MEXA is a reliable method for estimating the multilingual capabilities of English-centric LLMs, providing a clearer understanding of their multilingual potential and the inner workings of LLMs. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.

Summary

AI-Generated Summary

PDF32November 16, 2024