Atlas-Chat: Adaptação de Modelos de Linguagem Grandes para o Dialeto Árabe Marroquino de Recursos Limitados
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect
September 26, 2024
Autores: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Resumo
Apresentamos o Atlas-Chat, a primeira coleção de grandes modelos de linguagem desenvolvidos especificamente para o árabe dialetal. Concentrando-nos no árabe marroquino, também conhecido como Darija, construímos nosso conjunto de dados de instruções consolidando recursos linguísticos existentes em Darija, criando conjuntos de dados novos manualmente e de forma sintética, e traduzindo instruções em inglês com controle de qualidade rigoroso. Os modelos Atlas-Chat-9B e 2B, ajustados com base no conjunto de dados, demonstram habilidades superiores em seguir instruções em Darija e realizar tarefas padrão de PNL. Notavelmente, nossos modelos superam tanto os modelos de última geração quanto os LLMs especializados em árabe, como LLaMa, Jais e AceGPT, por exemplo, alcançando um aumento de desempenho de 13% em relação a um modelo maior de 13B no DarijaMMLU, em nossa nova suíte de avaliação para Darija, abrangendo tarefas discriminativas e generativas. Além disso, realizamos uma análise experimental de várias estratégias de ajuste fino e escolhas de modelos base para determinar configurações ótimas. Todos os nossos recursos são de acesso público, e acreditamos que nosso trabalho oferece metodologias de design abrangentes para ajuste de instruções em variantes de idiomas com poucos recursos, que frequentemente são negligenciadas em favor de idiomas ricos em dados pelos LLMs contemporâneos.
English
We introduce Atlas-Chat, the first-ever collection of large language models
specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also
known as Darija, we construct our instruction dataset by consolidating existing
Darija language resources, creating novel datasets both manually and
synthetically, and translating English instructions with stringent quality
control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit
superior ability in following Darija instructions and performing standard NLP
tasks. Notably, our models outperform both state-of-the-art and
Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13%
performance boost over a larger 13B model on DarijaMMLU, in our newly
introduced evaluation suite for Darija covering both discriminative and
generative tasks. Furthermore, we perform an experimental analysis of various
fine-tuning strategies and base model choices to determine optimal
configurations. All our resources are publicly accessible, and we believe our
work offers comprehensive design methodologies of instruction-tuning for
low-resource language variants, which are often neglected in favor of data-rich
languages by contemporary LLMs.Summary
AI-Generated Summary