Atlas-Chat: Het aanpassen van grote taalmodellen voor het Marokkaanse Arabisch dialect met beperkte middelen
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect
September 26, 2024
Auteurs: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Samenvatting
We introduceren Atlas-Chat, de allereerste verzameling van grote taalmodellen die specifiek zijn ontwikkeld voor dialectisch Arabisch. Met de focus op Marokkaans Arabisch, ook bekend als Darija, construeren we onze instructiedataset door bestaande Darija-taalbronnen te consolideren, nieuwe datasets zowel handmatig als synthetisch te creëren, en Engelse instructies met strenge kwaliteitscontrole te vertalen. De Atlas-Chat-9B en 2B modellen, fijnafgestemd op de dataset, vertonen een superieure vaardigheid in het opvolgen van Darija-instructies en het uitvoeren van standaard NLP-taken. Opmerkelijk is dat onze modellen zowel state-of-the-art als op Arabisch gespecialiseerde LLM's zoals LLaMa, Jais en AceGPT overtreffen, bijvoorbeeld door een prestatieverbetering van 13% te behalen ten opzichte van een groter 13B-model op DarijaMMLU, in onze nieuw geïntroduceerde evaluatiesuite voor Darija die zowel discriminerende als generatieve taken omvat. Bovendien voeren we een experimentele analyse uit van verschillende fijnafstemmingsstrategieën en basismodelkeuzes om optimale configuraties te bepalen. Al onze bronnen zijn openbaar toegankelijk, en we geloven dat ons werk uitgebreide ontwerpmethodologieën biedt voor instructie-afstemming voor taalvarianten met weinig bronnen, die vaak verwaarloosd worden ten gunste van datarijke talen door hedendaagse LLM's.
English
We introduce Atlas-Chat, the first-ever collection of large language models
specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also
known as Darija, we construct our instruction dataset by consolidating existing
Darija language resources, creating novel datasets both manually and
synthetically, and translating English instructions with stringent quality
control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit
superior ability in following Darija instructions and performing standard NLP
tasks. Notably, our models outperform both state-of-the-art and
Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13%
performance boost over a larger 13B model on DarijaMMLU, in our newly
introduced evaluation suite for Darija covering both discriminative and
generative tasks. Furthermore, we perform an experimental analysis of various
fine-tuning strategies and base model choices to determine optimal
configurations. All our resources are publicly accessible, and we believe our
work offers comprehensive design methodologies of instruction-tuning for
low-resource language variants, which are often neglected in favor of data-rich
languages by contemporary LLMs.Summary
AI-Generated Summary