NileChat: Auf dem Weg zu linguistisch vielfältigen und kulturell bewussten LLMs für lokale Gemeinschaften
NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
May 23, 2025
Autoren: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI
Zusammenfassung
Die Erweiterung der linguistischen Fähigkeiten von Large Language Models (LLMs) um ressourcenarme Sprachen ist ein zentrales Forschungsgebiet. Aktuelle Forschungsansätze stützen sich überwiegend auf synthetische Daten, die durch die Übersetzung englischer Korpora generiert werden. Obwohl diese Modelle vielversprechende linguistische Verständnis- und Übersetzungsfähigkeiten zeigen, sind sie oft an die Kultur der Ausgangssprache angepasst. Diese Modelle repräsentieren häufig nicht das kulturelle Erbe und die Werte lokaler Gemeinschaften. Diese Arbeit schlägt eine Methodik vor, um sowohl synthetische als auch retrieverbasierte Vorab-Trainingsdaten zu erstellen, die speziell auf eine bestimmte Gemeinschaft zugeschnitten sind und dabei deren (i) Sprache, (ii) kulturelles Erbe und (iii) kulturelle Werte berücksichtigen. Wir demonstrieren unsere Methodik anhand ägyptischer und marokkanischer Dialekte als Testumgebungen, die aufgrund ihres linguistischen und kulturellen Reichtums sowie ihrer derzeitigen Unterrepräsentation in LLMs ausgewählt wurden. Als Proof-of-Concept entwickeln wir NileChat, ein 3B-Parameter-LLM, das für ägyptische und marokkanische Gemeinschaften angepasst ist und deren Sprache, kulturelles Erbe und Werte einbezieht. Unsere Ergebnisse auf verschiedenen Benchmarks für Verständnis, Übersetzung sowie kulturelle und wertebezogene Ausrichtung zeigen, dass NileChat bestehende arabischfähige LLMs ähnlicher Größe übertrifft und mit größeren Modellen gleichauf liegt. Wir teilen unsere Methoden, Daten und Modelle mit der Gemeinschaft, um die Einbeziehung und Abdeckung vielfältigerer Gemeinschaften in der LLM-Entwicklung zu fördern.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to
include low-resource languages is a critical research area. Current research
directions predominantly rely on synthetic data generated by translating
English corpora, which, while demonstrating promising linguistic understanding
and translation abilities, often results in models aligned with source language
culture. These models frequently fail to represent the cultural heritage and
values of local communities. This work proposes a methodology to create both
synthetic and retrieval-based pre-training data tailored to a specific
community, considering its (i) language, (ii) cultural heritage, and (iii)
cultural values. We demonstrate our methodology using Egyptian and Moroccan
dialects as testbeds, chosen for their linguistic and cultural richness and
current underrepresentation in LLMs. As a proof-of-concept, we develop
NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities,
incorporating their language, cultural heritage, and values. Our results on
various understanding, translation, and cultural and values alignment
benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar
size and performs on par with larger models. We share our methods, data, and
models with the community to promote the inclusion and coverage of more diverse
communities in LLM development.Summary
AI-Generated Summary