Atlas-Chat: Adaptación de Modelos de Lenguaje Grandes para el Dialecto Árabe Marroquí de Recursos Limitados
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect
September 26, 2024
Autores: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Resumen
Presentamos Atlas-Chat, la primera colección de modelos de lenguaje grandes desarrollados específicamente para el árabe dialectal. Centrándonos en el árabe marroquí, también conocido como Darija, construimos nuestro conjunto de datos de instrucciones consolidando recursos lingüísticos existentes en Darija, creando conjuntos de datos novedosos tanto manual como sintéticamente, y traduciendo instrucciones en inglés con un estricto control de calidad. Los modelos Atlas-Chat-9B y 2B, ajustados en el conjunto de datos, muestran una capacidad superior para seguir instrucciones en Darija y realizar tareas estándar de PNL. Destacadamente, nuestros modelos superan tanto a los modelos de lenguaje grandes de vanguardia como a los LLM especializados en árabe como LLaMa, Jais y AceGPT, por ejemplo, logrando un aumento del rendimiento del 13% sobre un modelo de 13B más grande en DarijaMMLU, en nuestra nueva suite de evaluación para Darija que cubre tareas tanto discriminatorias como generativas. Además, realizamos un análisis experimental de diversas estrategias de ajuste fino y elecciones de modelos base para determinar configuraciones óptimas. Todos nuestros recursos son accesibles públicamente, y creemos que nuestro trabajo ofrece metodologías de diseño integrales para el ajuste de instrucciones en variantes de lenguajes con pocos recursos, que a menudo son descuidadas en favor de lenguajes ricos en datos por los LLM contemporáneos.
English
We introduce Atlas-Chat, the first-ever collection of large language models
specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also
known as Darija, we construct our instruction dataset by consolidating existing
Darija language resources, creating novel datasets both manually and
synthetically, and translating English instructions with stringent quality
control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit
superior ability in following Darija instructions and performing standard NLP
tasks. Notably, our models outperform both state-of-the-art and
Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13%
performance boost over a larger 13B model on DarijaMMLU, in our newly
introduced evaluation suite for Darija covering both discriminative and
generative tasks. Furthermore, we perform an experimental analysis of various
fine-tuning strategies and base model choices to determine optimal
configurations. All our resources are publicly accessible, and we believe our
work offers comprehensive design methodologies of instruction-tuning for
low-resource language variants, which are often neglected in favor of data-rich
languages by contemporary LLMs.Summary
AI-Generated Summary