MaLA-500: 대규모 언어 모델의 대용량 언어 적응
MaLA-500: Massive Language Adaptation of Large Language Models
January 24, 2024
저자: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI
초록
대형 언어 모델은 자연어 처리 분야에서 최첨단 기술을 발전시켜 왔습니다. 그러나 이러한 모델들은 주로 영어 또는 제한된 언어 집단을 대상으로 설계되어, 저자원 언어에 대한 효과성 측면에서 상당한 격차를 보이고 있습니다. 이러한 격차를 해소하기 위해, 우리는 534개 언어를 포괄하는 새로운 대형 언어 모델인 MaLA-500을 소개합니다. MaLA-500을 학습시키기 위해, 우리는 LLaMA 2 모델에 Glot500-c 데이터를 활용한 어휘 확장 및 지속적 사전 학습을 적용했습니다. SIB-200 데이터셋에서의 실험 결과, MaLA-500은 컨텍스트 내 학습에서 최첨단 성능을 달성했습니다. MaLA-500은 https://huggingface.co/MaLA-LM에서 공개되었습니다.
English
Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM