Nile-Chat: Egyptische Taalmodellen voor Arabische en Latijnse Schrifttekens
Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts
July 6, 2025
Auteurs: Guokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Samenvatting
We introduceren Nile-Chat-4B, 3x4B-A6B en 12B, een verzameling van grote taalmodel(len) (LLMs) voor het Egyptische dialect, die uniek zijn ontworpen om teksten geschreven in zowel Arabisch als Latijns schrift te begrijpen en te genereren. Specifiek introduceren we met Nile-Chat-3x4B-A6B een nieuwe aanpak voor taaladaptatie door gebruik te maken van de Branch-Train-MiX-strategie om scriptgespecialiseerde experts samen te voegen tot één MoE-model (Mixture of Experts). Onze Nile-Chat-modellen presteren aanzienlijk beter dan toonaangevende meertalige en Arabische LLMs, zoals LLaMa, Jais en ALLaM, op onze nieuw geïntroduceerde Egyptische evaluatiebenchmarks, die zowel begrips- als generatieve taken omvatten. Opmerkelijk is dat ons 12B-model een prestatieverbetering van 14,4% behaalt ten opzichte van Qwen2.5-14B-Instruct op benchmarks voor Latijns schrift. Al onze bronnen zijn publiekelijk beschikbaar. Wij geloven dat dit werk een uitgebreide methodologie biedt voor het aanpassen van LLMs aan tweeschrift-talen, waarbij een vaak over het hoofd gezien aspect in de moderne ontwikkeling van LLMs wordt aangepakt.
English
We introduce Nile-Chat-4B, 3x4B-A6B, and 12B, a collection of LLMs for
Egyptian dialect, uniquely designed to understand and generate texts written in
both Arabic and Latin scripts. Specifically, with Nile-Chat-3x4B-A6B, we
introduce a novel language adaptation approach by leveraging the
Branch-Train-MiX strategy to merge script-specialized experts, into a single
MoE model. Our Nile-Chat models significantly outperform leading multilingual
and Arabic LLMs, such as LLaMa, Jais, and ALLaM, on our newly introduced
Egyptian evaluation benchmarks, which span both understanding and generative
tasks. Notably, our 12B model yields a 14.4% performance gain over
Qwen2.5-14B-Instruct on Latin-script benchmarks. All our resources are publicly
available. We believe this work presents a comprehensive methodology for
adapting LLMs to dual-script languages, addressing an often overlooked aspect
in modern LLM development.