ChatPaper.aiChatPaper

Atlas-Chat: Anpassung großer Sprachmodelle für den ressourcenarmen marokkanischen arabischen Dialekt

Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect

September 26, 2024
Autoren: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI

Zusammenfassung

Wir stellen Atlas-Chat vor, die erste Sammlung großer Sprachmodelle, die speziell für das dialektale Arabisch entwickelt wurden. Mit Fokus auf dem marokkanischen Arabisch, auch bekannt als Darija, erstellen wir unseren Anweisungsdatensatz, indem wir bestehende Darija-Sprachressourcen konsolidieren, neue Datensätze sowohl manuell als auch synthetisch erstellen und englische Anweisungen mit strenger Qualitätskontrolle übersetzen. Die auf dem Datensatz feinabgestimmten Atlas-Chat-9B- und 2B-Modelle zeigen eine überlegene Fähigkeit, Darija-Anweisungen zu befolgen und Standard-NLP-Aufgaben auszuführen. Bemerkenswert ist, dass unsere Modelle sowohl die State-of-the-Art-Modelle als auch auf Arabisch spezialisierte LLMs wie LLaMa, Jais und AceGPT übertreffen, z. B. eine Leistungssteigerung von 13% gegenüber einem größeren 13B-Modell auf DarijaMMLU in unserer neu eingeführten Evaluierungssuite für Darija, die sowohl diskriminative als auch generative Aufgaben umfasst. Darüber hinaus führen wir eine experimentelle Analyse verschiedener Feinabstimmungsstrategien und Basismodellauswahlen durch, um optimale Konfigurationen zu bestimmen. Alle unsere Ressourcen sind öffentlich zugänglich, und wir glauben, dass unsere Arbeit umfassende Designmethodologien für die Anweisungsfeinabstimmung für Sprachvarianten mit geringen Ressourcen bietet, die von zeitgenössischen LLMs oft zugunsten datenreicher Sprachen vernachlässigt werden.
English
We introduce Atlas-Chat, the first-ever collection of large language models specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also known as Darija, we construct our instruction dataset by consolidating existing Darija language resources, creating novel datasets both manually and synthetically, and translating English instructions with stringent quality control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit superior ability in following Darija instructions and performing standard NLP tasks. Notably, our models outperform both state-of-the-art and Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13% performance boost over a larger 13B model on DarijaMMLU, in our newly introduced evaluation suite for Darija covering both discriminative and generative tasks. Furthermore, we perform an experimental analysis of various fine-tuning strategies and base model choices to determine optimal configurations. All our resources are publicly accessible, and we believe our work offers comprehensive design methodologies of instruction-tuning for low-resource language variants, which are often neglected in favor of data-rich languages by contemporary LLMs.

Summary

AI-Generated Summary

PDF292November 13, 2024