MaLA-500: Масштабная языковая адаптация больших языковых моделей
MaLA-500: Massive Language Adaptation of Large Language Models
January 24, 2024
Авторы: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI
Аннотация
Крупные языковые модели значительно продвинули передовые рубежи в области обработки естественного языка. Однако их преимущественная ориентация на английский или ограниченный набор языков создает существенный разрыв в их эффективности для малоресурсных языков. Чтобы преодолеть этот разрыв, мы представляем MaLA-500 — новую крупную языковую модель, разработанную для охвата обширного спектра из 534 языков. Для обучения MaLA-500 мы используем расширение словаря и продолжение предварительного обучения на основе LLaMA 2 с использованием Glot500-c. Наши эксперименты на SIB-200 показывают, что MaLA-500 достигает передовых результатов в обучении в контексте. Мы публикуем MaLA-500 по адресу https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM