Atlas-Chat : Adaptation des grands modèles de langage pour le dialecte arabe marocain à ressources limitées
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect
September 26, 2024
Auteurs: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Résumé
Nous présentons Atlas-Chat, la première collection jamais réalisée de grands modèles de langage spécifiquement développés pour l'arabe dialectal. En mettant l'accent sur l'arabe marocain, également connu sous le nom de Darija, nous construisons notre ensemble de données d'instructions en consolidant les ressources linguistiques existantes en Darija, en créant de nouveaux ensembles de données à la fois manuellement et de manière synthétique, et en traduisant des instructions en anglais avec un contrôle de qualité strict. Les modèles Atlas-Chat-9B et 2B, affinés sur l'ensemble de données, présentent une capacité supérieure à suivre des instructions en Darija et à effectuer des tâches standard de traitement automatique du langage naturel. Notamment, nos modèles surpassent à la fois les modèles de pointe et les LLM (Large Language Models) spécialisés en arabe tels que LLaMa, Jais et AceGPT, par exemple, en obtenant une amélioration de performance de 13 % par rapport à un modèle plus grand de 13B sur DarijaMMLU, dans notre suite d'évaluation nouvellement introduite pour le Darija couvrant à la fois des tâches discriminatives et génératives. De plus, nous effectuons une analyse expérimentale de diverses stratégies d'affinage et de choix de modèles de base pour déterminer les configurations optimales. Toutes nos ressources sont accessibles au public, et nous pensons que notre travail offre des méthodologies de conception complètes pour l'ajustement des instructions pour les variantes linguistiques à faibles ressources, souvent négligées au profit des langues riches en données par les LLM contemporains.
English
We introduce Atlas-Chat, the first-ever collection of large language models
specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also
known as Darija, we construct our instruction dataset by consolidating existing
Darija language resources, creating novel datasets both manually and
synthetically, and translating English instructions with stringent quality
control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit
superior ability in following Darija instructions and performing standard NLP
tasks. Notably, our models outperform both state-of-the-art and
Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13%
performance boost over a larger 13B model on DarijaMMLU, in our newly
introduced evaluation suite for Darija covering both discriminative and
generative tasks. Furthermore, we perform an experimental analysis of various
fine-tuning strategies and base model choices to determine optimal
configurations. All our resources are publicly accessible, and we believe our
work offers comprehensive design methodologies of instruction-tuning for
low-resource language variants, which are often neglected in favor of data-rich
languages by contemporary LLMs.Summary
AI-Generated Summary