ChatPaper.aiChatPaper

NileChat: Auf dem Weg zu linguistisch vielfältigen und kulturell bewussten LLMs für lokale Gemeinschaften

NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

May 23, 2025
Autoren: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI

Zusammenfassung

Die Erweiterung der linguistischen Fähigkeiten von Large Language Models (LLMs) um ressourcenarme Sprachen ist ein zentrales Forschungsgebiet. Aktuelle Forschungsansätze stützen sich überwiegend auf synthetische Daten, die durch die Übersetzung englischer Korpora generiert werden. Obwohl diese Modelle vielversprechende linguistische Verständnis- und Übersetzungsfähigkeiten zeigen, sind sie oft an die Kultur der Ausgangssprache angepasst. Diese Modelle repräsentieren häufig nicht das kulturelle Erbe und die Werte lokaler Gemeinschaften. Diese Arbeit schlägt eine Methodik vor, um sowohl synthetische als auch retrieverbasierte Vorab-Trainingsdaten zu erstellen, die speziell auf eine bestimmte Gemeinschaft zugeschnitten sind und dabei deren (i) Sprache, (ii) kulturelles Erbe und (iii) kulturelle Werte berücksichtigen. Wir demonstrieren unsere Methodik anhand ägyptischer und marokkanischer Dialekte als Testumgebungen, die aufgrund ihres linguistischen und kulturellen Reichtums sowie ihrer derzeitigen Unterrepräsentation in LLMs ausgewählt wurden. Als Proof-of-Concept entwickeln wir NileChat, ein 3B-Parameter-LLM, das für ägyptische und marokkanische Gemeinschaften angepasst ist und deren Sprache, kulturelles Erbe und Werte einbezieht. Unsere Ergebnisse auf verschiedenen Benchmarks für Verständnis, Übersetzung sowie kulturelle und wertebezogene Ausrichtung zeigen, dass NileChat bestehende arabischfähige LLMs ähnlicher Größe übertrifft und mit größeren Modellen gleichauf liegt. Wir teilen unsere Methoden, Daten und Modelle mit der Gemeinschaft, um die Einbeziehung und Abdeckung vielfältigerer Gemeinschaften in der LLM-Entwicklung zu fördern.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to include low-resource languages is a critical research area. Current research directions predominantly rely on synthetic data generated by translating English corpora, which, while demonstrating promising linguistic understanding and translation abilities, often results in models aligned with source language culture. These models frequently fail to represent the cultural heritage and values of local communities. This work proposes a methodology to create both synthetic and retrieval-based pre-training data tailored to a specific community, considering its (i) language, (ii) cultural heritage, and (iii) cultural values. We demonstrate our methodology using Egyptian and Moroccan dialects as testbeds, chosen for their linguistic and cultural richness and current underrepresentation in LLMs. As a proof-of-concept, we develop NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities, incorporating their language, cultural heritage, and values. Our results on various understanding, translation, and cultural and values alignment benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar size and performs on par with larger models. We share our methods, data, and models with the community to promote the inclusion and coverage of more diverse communities in LLM development.

Summary

AI-Generated Summary

PDF12May 27, 2025