ChatPaper.aiChatPaper

アトラスチャット:低リソースなモロッコアラビア方言向けの大規模言語モデルの適応

Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect

September 26, 2024
著者: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI

要旨

私たちは、初めての大規模言語モデルのコレクションであるAtlas-Chatを紹介します。このモデルは、方言アラビア語向けに特別に開発されました。モロッコのアラビア語、またはダリージャとして知られる言語に焦点を当て、既存のダリージャ言語リソースを統合し、新しいデータセットを手動および合成で作成し、厳格な品質管理を行いながら英語の指示を翻訳して構築しました。データセットでファインチューニングされたAtlas-Chat-9Bおよび2Bモデルは、ダリージャの指示に従う能力や標準の自然言語処理タスクの実行能力において優れた性能を発揮します。特筆すべきは、当社のモデルが、LLaMa、Jais、AceGPTなどの最先端およびアラビア語に特化した大規模言語モデルを上回る点です。たとえば、新たに導入したダリージャの評価スイートであるDarijaMMLUにおいて、13Bモデルよりも13%の性能向上を達成しています。この評価スイートは、識別的および生成的タスクの両方をカバーしています。さらに、さまざまなファインチューニング戦略やベースモデルの選択に関する実験的分析を行い、最適な構成を決定しています。すべてのリソースは一般にアクセス可能であり、私たちの作業は、現代の大規模言語モデルによってしばしば無視される低リソース言語バリアントの指示チューニングの包括的な設計方法を提供していると考えています。
English
We introduce Atlas-Chat, the first-ever collection of large language models specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also known as Darija, we construct our instruction dataset by consolidating existing Darija language resources, creating novel datasets both manually and synthetically, and translating English instructions with stringent quality control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit superior ability in following Darija instructions and performing standard NLP tasks. Notably, our models outperform both state-of-the-art and Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13% performance boost over a larger 13B model on DarijaMMLU, in our newly introduced evaluation suite for Darija covering both discriminative and generative tasks. Furthermore, we perform an experimental analysis of various fine-tuning strategies and base model choices to determine optimal configurations. All our resources are publicly accessible, and we believe our work offers comprehensive design methodologies of instruction-tuning for low-resource language variants, which are often neglected in favor of data-rich languages by contemporary LLMs.

Summary

AI-Generated Summary

PDF292November 13, 2024