Atlas-Chat: Adattamento di grandi modelli linguistici per il dialetto arabo marocchino a bassa risorsa
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect
September 26, 2024
Autori: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Abstract
Introduciamo Atlas-Chat, la prima collezione mai realizzata di grandi modelli linguistici sviluppati appositamente per l'arabo dialettale. Concentrandoci sull'arabo marocchino, noto anche come Darija, costruiamo il nostro set di istruzioni consolidando le risorse linguistiche esistenti in Darija, creando set di dati sia manualmente che sinteticamente e traducendo istruzioni in inglese con rigoroso controllo di qualità. I modelli Atlas-Chat-9B e 2B, sintonizzati sul set di dati, mostrano una capacità superiore nel seguire istruzioni in Darija e nel svolgere compiti standard di elaborazione del linguaggio naturale. In particolare, i nostri modelli superano sia i modelli LLM all'avanguardia che quelli specializzati in arabo come LLaMa, Jais e AceGPT, ad esempio ottenendo un aumento delle prestazioni del 13% rispetto a un modello più grande da 13B su DarijaMMLU, nella nostra nuova suite di valutazione introdotta per il Darija che copre sia compiti discriminativi che generativi. Inoltre, conduciamo un'analisi sperimentale di varie strategie di sintonizzazione e scelte di modelli di base per determinare configurazioni ottimali. Tutte le nostre risorse sono pubblicamente accessibili e riteniamo che il nostro lavoro offra metodologie di progettazione complete per la sintonizzazione delle istruzioni per varianti linguistiche a bassa risorsa, spesso trascurate a favore delle lingue ricche di dati dai LLM contemporanei.
English
We introduce Atlas-Chat, the first-ever collection of large language models
specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also
known as Darija, we construct our instruction dataset by consolidating existing
Darija language resources, creating novel datasets both manually and
synthetically, and translating English instructions with stringent quality
control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit
superior ability in following Darija instructions and performing standard NLP
tasks. Notably, our models outperform both state-of-the-art and
Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13%
performance boost over a larger 13B model on DarijaMMLU, in our newly
introduced evaluation suite for Darija covering both discriminative and
generative tasks. Furthermore, we perform an experimental analysis of various
fine-tuning strategies and base model choices to determine optimal
configurations. All our resources are publicly accessible, and we believe our
work offers comprehensive design methodologies of instruction-tuning for
low-resource language variants, which are often neglected in favor of data-rich
languages by contemporary LLMs.