ChatPaper.aiChatPaper

Atlas-Chat: Адаптация больших языковых моделей для низкоресурсных диалектов марокканского арабского языка

Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect

September 26, 2024
Авторы: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI

Аннотация

Мы представляем Atlas-Chat, первую в мире коллекцию крупных языковых моделей, специально разработанных для диалектального арабского языка. Сосредотачиваясь на марокканском арабском, также известном как Дариджа, мы создаем наш набор инструкций, объединяя существующие ресурсы по Даридже, создавая как руками, так и синтетически новые наборы данных, а также переводя английские инструкции с жестким контролем качества. Модели Atlas-Chat-9B и 2B, донастроенные на наборе данных, проявляют превосходные способности в следовании инструкциям на Даридже и выполнении стандартных задач обработки естественного языка. Заметно, что наши модели превосходят как современные, так и арабские специализированные языковые модели, такие как LLaMa, Jais и AceGPT, например, достигая повышения производительности на 13% по сравнению с более крупной моделью 13B на DarijaMMLU, в нашем вновь представленном наборе оценки для Дариджи, охватывающем как дискриминационные, так и генеративные задачи. Кроме того, мы проводим экспериментальный анализ различных стратегий донастройки и выбора базовых моделей для определения оптимальных конфигураций. Все наши ресурсы общедоступны, и мы считаем, что наша работа предлагает комплексные методологии проектирования настройки инструкций для языков с ограниченными ресурсами, которые часто игнорируются в пользу языков с богатыми данными современными языковыми моделями.
English
We introduce Atlas-Chat, the first-ever collection of large language models specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also known as Darija, we construct our instruction dataset by consolidating existing Darija language resources, creating novel datasets both manually and synthetically, and translating English instructions with stringent quality control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit superior ability in following Darija instructions and performing standard NLP tasks. Notably, our models outperform both state-of-the-art and Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13% performance boost over a larger 13B model on DarijaMMLU, in our newly introduced evaluation suite for Darija covering both discriminative and generative tasks. Furthermore, we perform an experimental analysis of various fine-tuning strategies and base model choices to determine optimal configurations. All our resources are publicly accessible, and we believe our work offers comprehensive design methodologies of instruction-tuning for low-resource language variants, which are often neglected in favor of data-rich languages by contemporary LLMs.

Summary

AI-Generated Summary

PDF292November 13, 2024