Nile-Chat: Modelos de Lenguaje Egipcios para Escrituras Árabe y Latina
Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts
July 6, 2025
Autores: Guokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Resumen
Presentamos Nile-Chat-4B, 3x4B-A6B y 12B, una colección de modelos de lenguaje grandes (LLMs) para el dialecto egipcio, diseñados de manera única para comprender y generar textos escritos tanto en alfabeto árabe como latino. Específicamente, con Nile-Chat-3x4B-A6B, introducimos un enfoque novedoso de adaptación lingüística al aprovechar la estrategia Branch-Train-MiX para fusionar expertos especializados en cada alfabeto en un único modelo Mixture of Experts (MoE). Nuestros modelos Nile-Chat superan significativamente a los principales LLMs multilingües y árabes, como LLaMa, Jais y ALLaM, en nuestros nuevos puntos de referencia de evaluación egipcios, que abarcan tareas tanto de comprensión como generativas. Destacablemente, nuestro modelo de 12B logra una mejora del 14.4% en rendimiento sobre Qwen2.5-14B-Instruct en pruebas con alfabeto latino. Todos nuestros recursos están disponibles públicamente. Creemos que este trabajo presenta una metodología integral para adaptar LLMs a lenguajes de doble alfabeto, abordando un aspecto frecuentemente pasado por alto en el desarrollo moderno de LLMs.
English
We introduce Nile-Chat-4B, 3x4B-A6B, and 12B, a collection of LLMs for
Egyptian dialect, uniquely designed to understand and generate texts written in
both Arabic and Latin scripts. Specifically, with Nile-Chat-3x4B-A6B, we
introduce a novel language adaptation approach by leveraging the
Branch-Train-MiX strategy to merge script-specialized experts, into a single
MoE model. Our Nile-Chat models significantly outperform leading multilingual
and Arabic LLMs, such as LLaMa, Jais, and ALLaM, on our newly introduced
Egyptian evaluation benchmarks, which span both understanding and generative
tasks. Notably, our 12B model yields a 14.4% performance gain over
Qwen2.5-14B-Instruct on Latin-script benchmarks. All our resources are publicly
available. We believe this work presents a comprehensive methodology for
adapting LLMs to dual-script languages, addressing an often overlooked aspect
in modern LLM development.