Nile-Chat: Modelos de Linguagem Egípcios para Escritas Árabe e Latina
Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts
July 6, 2025
Autores: Guokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
Resumo
Apresentamos o Nile-Chat-4B, 3x4B-A6B e 12B, uma coleção de LLMs (Modelos de Linguagem de Grande Escala) para o dialeto egípcio, projetados de forma única para compreender e gerar textos escritos tanto em alfabeto árabe quanto latino. Especificamente, com o Nile-Chat-3x4B-A6B, introduzimos uma nova abordagem de adaptação linguística, utilizando a estratégia Branch-Train-MiX para fundir especialistas em scripts específicos em um único modelo MoE (Mixture of Experts). Nossos modelos Nile-Chat superam significativamente os principais LLMs multilíngues e árabes, como LLaMa, Jais e ALLaM, em nossos novos benchmarks de avaliação egípcios, que abrangem tanto tarefas de compreensão quanto de geração. Notavelmente, nosso modelo de 12B alcança um ganho de desempenho de 14,4% em relação ao Qwen2.5-14B-Instruct em benchmarks de script latino. Todos os nossos recursos estão disponíveis publicamente. Acreditamos que este trabalho apresenta uma metodologia abrangente para adaptar LLMs a idiomas de script duplo, abordando um aspecto frequentemente negligenciado no desenvolvimento moderno de LLMs.
English
We introduce Nile-Chat-4B, 3x4B-A6B, and 12B, a collection of LLMs for
Egyptian dialect, uniquely designed to understand and generate texts written in
both Arabic and Latin scripts. Specifically, with Nile-Chat-3x4B-A6B, we
introduce a novel language adaptation approach by leveraging the
Branch-Train-MiX strategy to merge script-specialized experts, into a single
MoE model. Our Nile-Chat models significantly outperform leading multilingual
and Arabic LLMs, such as LLaMa, Jais, and ALLaM, on our newly introduced
Egyptian evaluation benchmarks, which span both understanding and generative
tasks. Notably, our 12B model yields a 14.4% performance gain over
Qwen2.5-14B-Instruct on Latin-script benchmarks. All our resources are publicly
available. We believe this work presents a comprehensive methodology for
adapting LLMs to dual-script languages, addressing an often overlooked aspect
in modern LLM development.