SambaLingo: Enseñando nuevos idiomas a modelos de lenguaje de gran escala
SambaLingo: Teaching Large Language Models New Languages
April 8, 2024
Autores: Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
cs.AI
Resumen
A pesar de la amplia disponibilidad de los LLM (Modelos de Lenguaje de Gran Escala), persiste una brecha significativa en sus capacidades y accesibilidad en diversos idiomas. Un enfoque para abordar estos problemas ha sido tomar un LLM preentrenado existente y continuar su entrenamiento en nuevos idiomas. Si bien trabajos previos han experimentado con la adaptación lingüística, muchas preguntas sobre las mejores prácticas y metodologías no han sido cubiertas. En este artículo, presentamos una investigación exhaustiva sobre la adaptación de LLM a nuevos idiomas. Nuestro estudio abarca los componentes clave de este proceso, incluyendo la extensión del vocabulario, la optimización directa de preferencias y el problema de escasez de datos para la alineación humana en idiomas de bajos recursos. Escalamos estos experimentos en 9 idiomas y 2 escalas de parámetros (7B y 70B). Comparamos nuestros modelos con Llama 2, Aya-101, XGLM, BLOOM y expertos lingüísticos existentes, superando todas las líneas base publicadas previamente. Además, todo el código de evaluación y los puntos de control se hacen públicos para facilitar futuras investigaciones.
English
Despite the widespread availability of LLMs, there remains a substantial gap
in their capabilities and availability across diverse languages. One approach
to address these issues has been to take an existing pre-trained LLM and
continue to train it on new languages. While prior works have experimented with
language adaptation, many questions around best practices and methodology have
not been covered. In this paper, we present a comprehensive investigation into
the adaptation of LLMs to new languages. Our study covers the key components in
this process, including vocabulary extension, direct preference optimization
and the data scarcity problem for human alignment in low-resource languages. We
scale these experiments across 9 languages and 2 parameter scales (7B and 70B).
We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing
language experts, outperforming all prior published baselines. Additionally,
all evaluation code and checkpoints are made public to facilitate future
research.