NileChat : Vers des modèles de langage à grande échelle linguistiquement diversifiés et culturellement conscients pour les communautés locales
NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
May 23, 2025
Auteurs: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI
Résumé
L'amélioration des capacités linguistiques des modèles de langage de grande taille (LLMs) pour inclure les langues à ressources limitées constitue un domaine de recherche crucial. Les orientations actuelles de la recherche reposent principalement sur des données synthétiques générées par la traduction de corpus anglais, qui, bien qu'elles démontrent une compréhension linguistique et des capacités de traduction prometteuses, aboutissent souvent à des modèles alignés sur la culture de la langue source. Ces modèles échouent fréquemment à représenter le patrimoine culturel et les valeurs des communautés locales. Ce travail propose une méthodologie pour créer des données de pré-entraînement à la fois synthétiques et basées sur la récupération, adaptées à une communauté spécifique, en tenant compte de (i) sa langue, (ii) son patrimoine culturel et (iii) ses valeurs culturelles. Nous démontrons notre méthodologie en utilisant les dialectes égyptien et marocain comme terrains d'essai, choisis pour leur richesse linguistique et culturelle et leur sous-représentation actuelle dans les LLMs. À titre de preuve de concept, nous développons NileChat, un LLM de 3 milliards de paramètres adapté aux communautés égyptienne et marocaine, intégrant leur langue, leur patrimoine culturel et leurs valeurs. Nos résultats sur divers benchmarks de compréhension, de traduction, et d'alignement culturel et de valeurs montrent que NileChat surpasse les LLMs existants sensibles à l'arabe de taille similaire et performe à égalité avec des modèles plus grands. Nous partageons nos méthodes, données et modèles avec la communauté pour promouvoir l'inclusion et la couverture de communautés plus diversifiées dans le développement des LLMs.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to
include low-resource languages is a critical research area. Current research
directions predominantly rely on synthetic data generated by translating
English corpora, which, while demonstrating promising linguistic understanding
and translation abilities, often results in models aligned with source language
culture. These models frequently fail to represent the cultural heritage and
values of local communities. This work proposes a methodology to create both
synthetic and retrieval-based pre-training data tailored to a specific
community, considering its (i) language, (ii) cultural heritage, and (iii)
cultural values. We demonstrate our methodology using Egyptian and Moroccan
dialects as testbeds, chosen for their linguistic and cultural richness and
current underrepresentation in LLMs. As a proof-of-concept, we develop
NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities,
incorporating their language, cultural heritage, and values. Our results on
various understanding, translation, and cultural and values alignment
benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar
size and performs on par with larger models. We share our methods, data, and
models with the community to promote the inclusion and coverage of more diverse
communities in LLM development.Summary
AI-Generated Summary