SambaLingo: Ensinando Novos Idiomas a Modelos de Linguagem de Grande Escala
SambaLingo: Teaching Large Language Models New Languages
April 8, 2024
Autores: Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
cs.AI
Resumo
Apesar da ampla disponibilidade de LLMs (Modelos de Linguagem de Grande Escala), ainda existe uma lacuna significativa em suas capacidades e disponibilidade em diversos idiomas. Uma abordagem para lidar com esses problemas tem sido pegar um LLM pré-treinado existente e continuar a treiná-lo em novos idiomas. Embora trabalhos anteriores tenham experimentado com adaptação de idiomas, muitas questões sobre as melhores práticas e metodologias ainda não foram abordadas. Neste artigo, apresentamos uma investigação abrangente sobre a adaptação de LLMs a novos idiomas. Nosso estudo cobre os componentes-chave desse processo, incluindo extensão de vocabulário, otimização direta de preferências e o problema de escassez de dados para alinhamento humano em idiomas de baixos recursos. Escalonamos esses experimentos em 9 idiomas e 2 escalas de parâmetros (7B e 70B). Comparamos nossos modelos com Llama 2, Aya-101, XGLM, BLOOM e especialistas linguísticos existentes, superando todas as linhas de base publicadas anteriormente. Além disso, todo o código de avaliação e checkpoints são disponibilizados publicamente para facilitar pesquisas futuras.
English
Despite the widespread availability of LLMs, there remains a substantial gap
in their capabilities and availability across diverse languages. One approach
to address these issues has been to take an existing pre-trained LLM and
continue to train it on new languages. While prior works have experimented with
language adaptation, many questions around best practices and methodology have
not been covered. In this paper, we present a comprehensive investigation into
the adaptation of LLMs to new languages. Our study covers the key components in
this process, including vocabulary extension, direct preference optimization
and the data scarcity problem for human alignment in low-resource languages. We
scale these experiments across 9 languages and 2 parameter scales (7B and 70B).
We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing
language experts, outperforming all prior published baselines. Additionally,
all evaluation code and checkpoints are made public to facilitate future
research.