ChatPaper.aiChatPaper

Nile-Chat: Modelos de Linguagem Egípcios para Escritas Árabe e Latina

Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

July 6, 2025
Autores: Guokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI

Resumo

Apresentamos o Nile-Chat-4B, 3x4B-A6B e 12B, uma coleção de LLMs (Modelos de Linguagem de Grande Escala) para o dialeto egípcio, projetados de forma única para compreender e gerar textos escritos tanto em alfabeto árabe quanto latino. Especificamente, com o Nile-Chat-3x4B-A6B, introduzimos uma nova abordagem de adaptação linguística, utilizando a estratégia Branch-Train-MiX para fundir especialistas em scripts específicos em um único modelo MoE (Mixture of Experts). Nossos modelos Nile-Chat superam significativamente os principais LLMs multilíngues e árabes, como LLaMa, Jais e ALLaM, em nossos novos benchmarks de avaliação egípcios, que abrangem tanto tarefas de compreensão quanto de geração. Notavelmente, nosso modelo de 12B alcança um ganho de desempenho de 14,4% em relação ao Qwen2.5-14B-Instruct em benchmarks de script latino. Todos os nossos recursos estão disponíveis publicamente. Acreditamos que este trabalho apresenta uma metodologia abrangente para adaptar LLMs a idiomas de script duplo, abordando um aspecto frequentemente negligenciado no desenvolvimento moderno de LLMs.
English
We introduce Nile-Chat-4B, 3x4B-A6B, and 12B, a collection of LLMs for Egyptian dialect, uniquely designed to understand and generate texts written in both Arabic and Latin scripts. Specifically, with Nile-Chat-3x4B-A6B, we introduce a novel language adaptation approach by leveraging the Branch-Train-MiX strategy to merge script-specialized experts, into a single MoE model. Our Nile-Chat models significantly outperform leading multilingual and Arabic LLMs, such as LLaMa, Jais, and ALLaM, on our newly introduced Egyptian evaluation benchmarks, which span both understanding and generative tasks. Notably, our 12B model yields a 14.4% performance gain over Qwen2.5-14B-Instruct on Latin-script benchmarks. All our resources are publicly available. We believe this work presents a comprehensive methodology for adapting LLMs to dual-script languages, addressing an often overlooked aspect in modern LLM development.
PDF201July 9, 2025