ChatPaper.aiChatPaper

Nile-Chat: Egyptische Taalmodellen voor Arabische en Latijnse Schrifttekens

Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

July 6, 2025
Auteurs: Guokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI

Samenvatting

We introduceren Nile-Chat-4B, 3x4B-A6B en 12B, een verzameling van grote taalmodel(len) (LLMs) voor het Egyptische dialect, die uniek zijn ontworpen om teksten geschreven in zowel Arabisch als Latijns schrift te begrijpen en te genereren. Specifiek introduceren we met Nile-Chat-3x4B-A6B een nieuwe aanpak voor taaladaptatie door gebruik te maken van de Branch-Train-MiX-strategie om scriptgespecialiseerde experts samen te voegen tot één MoE-model (Mixture of Experts). Onze Nile-Chat-modellen presteren aanzienlijk beter dan toonaangevende meertalige en Arabische LLMs, zoals LLaMa, Jais en ALLaM, op onze nieuw geïntroduceerde Egyptische evaluatiebenchmarks, die zowel begrips- als generatieve taken omvatten. Opmerkelijk is dat ons 12B-model een prestatieverbetering van 14,4% behaalt ten opzichte van Qwen2.5-14B-Instruct op benchmarks voor Latijns schrift. Al onze bronnen zijn publiekelijk beschikbaar. Wij geloven dat dit werk een uitgebreide methodologie biedt voor het aanpassen van LLMs aan tweeschrift-talen, waarbij een vaak over het hoofd gezien aspect in de moderne ontwikkeling van LLMs wordt aangepakt.
English
We introduce Nile-Chat-4B, 3x4B-A6B, and 12B, a collection of LLMs for Egyptian dialect, uniquely designed to understand and generate texts written in both Arabic and Latin scripts. Specifically, with Nile-Chat-3x4B-A6B, we introduce a novel language adaptation approach by leveraging the Branch-Train-MiX strategy to merge script-specialized experts, into a single MoE model. Our Nile-Chat models significantly outperform leading multilingual and Arabic LLMs, such as LLaMa, Jais, and ALLaM, on our newly introduced Egyptian evaluation benchmarks, which span both understanding and generative tasks. Notably, our 12B model yields a 14.4% performance gain over Qwen2.5-14B-Instruct on Latin-script benchmarks. All our resources are publicly available. We believe this work presents a comprehensive methodology for adapting LLMs to dual-script languages, addressing an often overlooked aspect in modern LLM development.
PDF201July 9, 2025