MaLA-500: Масштабная языковая адаптация больших языковых моделей

Аннотация

Крупные языковые модели значительно продвинули передовые рубежи в области обработки естественного языка. Однако их преимущественная ориентация на английский или ограниченный набор языков создает существенный разрыв в их эффективности для малоресурсных языков. Чтобы преодолеть этот разрыв, мы представляем MaLA-500 — новую крупную языковую модель, разработанную для охвата обширного спектра из 534 языков. Для обучения MaLA-500 мы используем расширение словаря и продолжение предварительного обучения на основе LLaMA 2 с использованием Glot500-c. Наши эксперименты на SIB-200 показывают, что MaLA-500 достигает передовых результатов в обучении в контексте. Мы публикуем MaLA-500 по адресу https://huggingface.co/MaLA-LM.

English

Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM

MaLA-500: Масштабная языковая адаптация больших языковых моделей

MaLA-500: Massive Language Adaptation of Large Language Models

Аннотация

Support