ChatPaper.aiChatPaper

NileChat: Rumo a Modelos de Linguagem com Diversidade Linguística e Consciência Cultural para Comunidades Locais

NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

May 23, 2025
Autores: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI

Resumo

Aprimorar as capacidades linguísticas dos Modelos de Linguagem de Grande Escala (LLMs) para incluir idiomas de baixo recurso é uma área de pesquisa crítica. As direções atuais de pesquisa dependem predominantemente de dados sintéticos gerados pela tradução de corpora em inglês, que, embora demonstrem compreensão linguística e habilidades de tradução promissoras, frequentemente resultam em modelos alinhados com a cultura do idioma de origem. Esses modelos frequentemente falham em representar o patrimônio cultural e os valores das comunidades locais. Este trabalho propõe uma metodologia para criar dados de pré-treinamento tanto sintéticos quanto baseados em recuperação, adaptados a uma comunidade específica, considerando (i) seu idioma, (ii) patrimônio cultural e (iii) valores culturais. Demonstramos nossa metodologia usando os dialetos egípcio e marroquino como casos de teste, escolhidos por sua riqueza linguística e cultural e sua atual sub-representação nos LLMs. Como prova de conceito, desenvolvemos o NileChat, um LLM com 3 bilhões de parâmetros adaptado para as comunidades egípcia e marroquina, incorporando seu idioma, patrimônio cultural e valores. Nossos resultados em vários benchmarks de compreensão, tradução e alinhamento cultural e de valores mostram que o NileChat supera os LLMs existentes voltados para o árabe de tamanho similar e tem desempenho comparável a modelos maiores. Compartilhamos nossos métodos, dados e modelos com a comunidade para promover a inclusão e cobertura de comunidades mais diversas no desenvolvimento de LLMs.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to include low-resource languages is a critical research area. Current research directions predominantly rely on synthetic data generated by translating English corpora, which, while demonstrating promising linguistic understanding and translation abilities, often results in models aligned with source language culture. These models frequently fail to represent the cultural heritage and values of local communities. This work proposes a methodology to create both synthetic and retrieval-based pre-training data tailored to a specific community, considering its (i) language, (ii) cultural heritage, and (iii) cultural values. We demonstrate our methodology using Egyptian and Moroccan dialects as testbeds, chosen for their linguistic and cultural richness and current underrepresentation in LLMs. As a proof-of-concept, we develop NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities, incorporating their language, cultural heritage, and values. Our results on various understanding, translation, and cultural and values alignment benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar size and performs on par with larger models. We share our methods, data, and models with the community to promote the inclusion and coverage of more diverse communities in LLM development.
PDF12May 27, 2025