SambaLingo: Grote Taalmodellen Nieuwe Talen Leren
SambaLingo: Teaching Large Language Models New Languages
April 8, 2024
Auteurs: Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
cs.AI
Samenvatting
Ondanks de brede beschikbaarheid van LLM's (Large Language Models), bestaat er nog steeds een aanzienlijke kloof in hun mogelijkheden en beschikbaarheid voor diverse talen. Een benadering om deze problemen aan te pakken, is het nemen van een bestaande, vooraf getrainde LLM en deze verder te trainen op nieuwe talen. Hoewel eerdere werken hebben geëxperimenteerd met taaladaptatie, zijn veel vragen over beste praktijken en methodologie nog niet behandeld. In dit artikel presenteren we een uitgebreid onderzoek naar de aanpassing van LLM's aan nieuwe talen. Onze studie behandelt de belangrijkste componenten in dit proces, waaronder vocabulaire-uitbreiding, directe voorkeursoptimalisatie en het probleem van dataschaarste voor menselijke afstemming in talen met beperkte bronnen. We schalen deze experimenten op over 9 talen en 2 parameterschalen (7B en 70B). We vergelijken onze modellen met Llama 2, Aya-101, XGLM, BLOOM en bestaande taalspecialisten, waarbij we alle eerder gepubliceerde referentiemodellen overtreffen. Daarnaast wordt alle evaluatiecode en checkpoints openbaar gemaakt om toekomstig onderzoek te vergemakkelijken.
English
Despite the widespread availability of LLMs, there remains a substantial gap
in their capabilities and availability across diverse languages. One approach
to address these issues has been to take an existing pre-trained LLM and
continue to train it on new languages. While prior works have experimented with
language adaptation, many questions around best practices and methodology have
not been covered. In this paper, we present a comprehensive investigation into
the adaptation of LLMs to new languages. Our study covers the key components in
this process, including vocabulary extension, direct preference optimization
and the data scarcity problem for human alignment in low-resource languages. We
scale these experiments across 9 languages and 2 parameter scales (7B and 70B).
We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing
language experts, outperforming all prior published baselines. Additionally,
all evaluation code and checkpoints are made public to facilitate future
research.