NileChat: Op weg naar taalkundig diverse en cultureel bewuste grote taalmodellen voor lokale gemeenschappen
NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
May 23, 2025
Auteurs: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI
Samenvatting
Het verbeteren van de linguïstische capaciteiten van Large Language Models (LLMs) om ook talen met beperkte bronnen te omvatten, is een cruciaal onderzoeksgebied. Huidige onderzoeksrichtingen vertrouwen voornamelijk op synthetische data die gegenereerd wordt door Engelse corpora te vertalen, wat weliswaar veelbelovend linguïstisch begrip en vertaalvaardigheden laat zien, maar vaak resulteert in modellen die afgestemd zijn op de cultuur van de brontaal. Deze modellen slagen er vaak niet in om het culturele erfgoed en de waarden van lokale gemeenschappen te vertegenwoordigen. Dit werk stelt een methodologie voor om zowel synthetische als op retrieval gebaseerde pre-trainingsdata te creëren die afgestemd zijn op een specifieke gemeenschap, waarbij rekening wordt gehouden met (i) de taal, (ii) het culturele erfgoed en (iii) de culturele waarden. We demonstreren onze methodologie met behulp van Egyptische en Marokkaanse dialecten als testcases, gekozen vanwege hun linguïstische en culturele rijkdom en hun huidige ondervertegenwoordiging in LLMs. Als proof-of-concept ontwikkelen we NileChat, een LLM met 3B parameters dat is aangepast voor Egyptische en Marokkaanse gemeenschappen, waarbij hun taal, culturele erfgoed en waarden zijn geïntegreerd. Onze resultaten op diverse benchmarks voor begrip, vertaling, en culturele en waardenafstemming laten zien dat NileChat bestaande Arabisch-bewuste LLMs van vergelijkbare grootte overtreft en op gelijk niveau presteert met grotere modellen. We delen onze methoden, data en modellen met de gemeenschap om de inclusie en dekking van meer diverse gemeenschappen in LLM-ontwikkeling te bevorderen.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to
include low-resource languages is a critical research area. Current research
directions predominantly rely on synthetic data generated by translating
English corpora, which, while demonstrating promising linguistic understanding
and translation abilities, often results in models aligned with source language
culture. These models frequently fail to represent the cultural heritage and
values of local communities. This work proposes a methodology to create both
synthetic and retrieval-based pre-training data tailored to a specific
community, considering its (i) language, (ii) cultural heritage, and (iii)
cultural values. We demonstrate our methodology using Egyptian and Moroccan
dialects as testbeds, chosen for their linguistic and cultural richness and
current underrepresentation in LLMs. As a proof-of-concept, we develop
NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities,
incorporating their language, cultural heritage, and values. Our results on
various understanding, translation, and cultural and values alignment
benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar
size and performs on par with larger models. We share our methods, data, and
models with the community to promote the inclusion and coverage of more diverse
communities in LLM development.