SambaLingo: Insegnare Nuove Lingue ai Modelli Linguistici di Grandi Dimensioni
SambaLingo: Teaching Large Language Models New Languages
April 8, 2024
Autori: Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
cs.AI
Abstract
Nonostante la diffusa disponibilità di LLM, rimane un divario significativo nelle loro capacità e accessibilità attraverso diverse lingue. Un approccio per affrontare questi problemi è stato quello di prendere un LLM pre-addestrato esistente e continuare ad addestrarlo su nuove lingue. Sebbene lavori precedenti abbiano sperimentato l'adattamento linguistico, molte domande sulle migliori pratiche e metodologie non sono state affrontate. In questo articolo, presentiamo un'indagine completa sull'adattamento degli LLM a nuove lingue. Il nostro studio copre i componenti chiave di questo processo, inclusa l'estensione del vocabolario, l'ottimizzazione diretta delle preferenze e il problema della scarsità di dati per l'allineamento umano nelle lingue a bassa risorsa. Scaliamo questi esperimenti su 9 lingue e 2 dimensioni di parametri (7B e 70B). Confrontiamo i nostri modelli con Llama 2, Aya-101, XGLM, BLOOM e esperti linguistici esistenti, superando tutte le baseline pubblicate in precedenza. Inoltre, tutto il codice di valutazione e i checkpoint vengono resi pubblici per facilitare la ricerca futura.
English
Despite the widespread availability of LLMs, there remains a substantial gap
in their capabilities and availability across diverse languages. One approach
to address these issues has been to take an existing pre-trained LLM and
continue to train it on new languages. While prior works have experimented with
language adaptation, many questions around best practices and methodology have
not been covered. In this paper, we present a comprehensive investigation into
the adaptation of LLMs to new languages. Our study covers the key components in
this process, including vocabulary extension, direct preference optimization
and the data scarcity problem for human alignment in low-resource languages. We
scale these experiments across 9 languages and 2 parameter scales (7B and 70B).
We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing
language experts, outperforming all prior published baselines. Additionally,
all evaluation code and checkpoints are made public to facilitate future
research.