ChatPaper.aiChatPaper

SambaLingo : Enseigner de nouvelles langues aux modèles de langage de grande taille

SambaLingo: Teaching Large Language Models New Languages

April 8, 2024
Auteurs: Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
cs.AI

Résumé

Malgré la disponibilité généralisée des LLM (modèles de langage de grande taille), il subsiste un écart important dans leurs capacités et leur accessibilité à travers diverses langues. Une approche pour résoudre ces problèmes consiste à prendre un LLM pré-entraîné existant et à poursuivre son entraînement sur de nouvelles langues. Bien que des travaux antérieurs aient expérimenté l'adaptation linguistique, de nombreuses questions concernant les meilleures pratiques et la méthodologie restent sans réponse. Dans cet article, nous présentons une investigation approfondie de l'adaptation des LLM à de nouvelles langues. Notre étude couvre les composants clés de ce processus, notamment l'extension du vocabulaire, l'optimisation directe des préférences et le problème de la rareté des données pour l'alignement humain dans les langues à ressources limitées. Nous menons ces expériences à l'échelle de 9 langues et 2 tailles de paramètres (7B et 70B). Nous comparons nos modèles à Llama 2, Aya-101, XGLM, BLOOM et aux experts linguistiques existants, surpassant toutes les références publiées précédemment. De plus, tout le code d'évaluation et les points de contrôle sont rendus publics pour faciliter les recherches futures.
English
Despite the widespread availability of LLMs, there remains a substantial gap in their capabilities and availability across diverse languages. One approach to address these issues has been to take an existing pre-trained LLM and continue to train it on new languages. While prior works have experimented with language adaptation, many questions around best practices and methodology have not been covered. In this paper, we present a comprehensive investigation into the adaptation of LLMs to new languages. Our study covers the key components in this process, including vocabulary extension, direct preference optimization and the data scarcity problem for human alignment in low-resource languages. We scale these experiments across 9 languages and 2 parameter scales (7B and 70B). We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing language experts, outperforming all prior published baselines. Additionally, all evaluation code and checkpoints are made public to facilitate future research.

Summary

AI-Generated Summary

PDF130December 15, 2024