Nile-Chat: Языковые модели для египетского арабского и латинского письма
Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts
July 6, 2025
Авторы: Guokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Аннотация
Мы представляем Nile-Chat-4B, 3x4B-A6B и 12B — набор крупных языковых моделей (LLM) для египетского диалекта, специально разработанных для понимания и генерации текстов, написанных как арабской, так и латинской графикой. В частности, в модели Nile-Chat-3x4B-A6B мы внедряем новый подход к языковой адаптации, используя стратегию Branch-Train-MiX для объединения специализированных экспертов по разным системам письма в единую модель смеси экспертов (MoE). Наши модели Nile-Chat значительно превосходят ведущие многоязычные и арабские LLM, такие как LLaMa, Jais и ALLaM, на новых бенчмарках для египетского диалекта, охватывающих как задачи понимания, так и генерации. Особенно выделяется наша модель 12B, которая демонстрирует прирост производительности на 14,4% по сравнению с Qwen2.5-14B-Instruct на бенчмарках с латинской графикой. Все наши ресурсы находятся в открытом доступе. Мы считаем, что данная работа представляет собой комплексную методологию адаптации LLM к языкам с двойной графикой, решая часто упускаемый аспект в современной разработке языковых моделей.
English
We introduce Nile-Chat-4B, 3x4B-A6B, and 12B, a collection of LLMs for
Egyptian dialect, uniquely designed to understand and generate texts written in
both Arabic and Latin scripts. Specifically, with Nile-Chat-3x4B-A6B, we
introduce a novel language adaptation approach by leveraging the
Branch-Train-MiX strategy to merge script-specialized experts, into a single
MoE model. Our Nile-Chat models significantly outperform leading multilingual
and Arabic LLMs, such as LLaMa, Jais, and ALLaM, on our newly introduced
Egyptian evaluation benchmarks, which span both understanding and generative
tasks. Notably, our 12B model yields a 14.4% performance gain over
Qwen2.5-14B-Instruct on Latin-script benchmarks. All our resources are publicly
available. We believe this work presents a comprehensive methodology for
adapting LLMs to dual-script languages, addressing an often overlooked aspect
in modern LLM development.