SambaLingo: Ensinando Novos Idiomas a Modelos de Linguagem de Grande Escala

Resumo

Apesar da ampla disponibilidade de LLMs (Modelos de Linguagem de Grande Escala), ainda existe uma lacuna significativa em suas capacidades e disponibilidade em diversos idiomas. Uma abordagem para lidar com esses problemas tem sido pegar um LLM pré-treinado existente e continuar a treiná-lo em novos idiomas. Embora trabalhos anteriores tenham experimentado com adaptação de idiomas, muitas questões sobre as melhores práticas e metodologias ainda não foram abordadas. Neste artigo, apresentamos uma investigação abrangente sobre a adaptação de LLMs a novos idiomas. Nosso estudo cobre os componentes-chave desse processo, incluindo extensão de vocabulário, otimização direta de preferências e o problema de escassez de dados para alinhamento humano em idiomas de baixos recursos. Escalonamos esses experimentos em 9 idiomas e 2 escalas de parâmetros (7B e 70B). Comparamos nossos modelos com Llama 2, Aya-101, XGLM, BLOOM e especialistas linguísticos existentes, superando todas as linhas de base publicadas anteriormente. Além disso, todo o código de avaliação e checkpoints são disponibilizados publicamente para facilitar pesquisas futuras.

English

Despite the widespread availability of LLMs, there remains a substantial gap in their capabilities and availability across diverse languages. One approach to address these issues has been to take an existing pre-trained LLM and continue to train it on new languages. While prior works have experimented with language adaptation, many questions around best practices and methodology have not been covered. In this paper, we present a comprehensive investigation into the adaptation of LLMs to new languages. Our study covers the key components in this process, including vocabulary extension, direct preference optimization and the data scarcity problem for human alignment in low-resource languages. We scale these experiments across 9 languages and 2 parameter scales (7B and 70B). We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing language experts, outperforming all prior published baselines. Additionally, all evaluation code and checkpoints are made public to facilitate future research.

SambaLingo: Ensinando Novos Idiomas a Modelos de Linguagem de Grande Escala

SambaLingo: Teaching Large Language Models New Languages

Resumo

Support