NileChat: Verso Modelli Linguistici Multilingue e Culturalmente Consapevoli per Comunità Locali
NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
May 23, 2025
Autori: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI
Abstract
Migliorare le capacità linguistiche dei Large Language Models (LLM) per includere lingue a bassa risorsa rappresenta un'area di ricerca cruciale. Le attuali direzioni di ricerca si basano principalmente su dati sintetici generati attraverso la traduzione di corpora inglesi, che, pur dimostrando una promettente comprensione linguistica e abilità di traduzione, spesso portano a modelli allineati con la cultura della lingua sorgente. Questi modelli frequentemente non riescono a rappresentare il patrimonio culturale e i valori delle comunità locali. Questo lavoro propone una metodologia per creare dati di pre-addestramento sia sintetici che basati su retrieval, specificamente adattati a una determinata comunità, tenendo conto di (i) lingua, (ii) patrimonio culturale e (iii) valori culturali. Dimostriamo la nostra metodologia utilizzando i dialetti egiziani e marocchini come casi di studio, scelti per la loro ricchezza linguistica e culturale e per la loro attuale sottorappresentazione nei LLM. Come prova di concetto, sviluppiamo NileChat, un LLM da 3 miliardi di parametri adattato per le comunità egiziane e marocchine, incorporando la loro lingua, patrimonio culturale e valori. I nostri risultati su vari benchmark di comprensione, traduzione e allineamento culturale e valoriale mostrano che NileChat supera i LLM esistenti di dimensioni simili consapevoli dell'arabo e si comporta alla pari con modelli più grandi. Condividiamo i nostri metodi, dati e modelli con la comunità per promuovere l'inclusione e la copertura di comunità più diversificate nello sviluppo dei LLM.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to
include low-resource languages is a critical research area. Current research
directions predominantly rely on synthetic data generated by translating
English corpora, which, while demonstrating promising linguistic understanding
and translation abilities, often results in models aligned with source language
culture. These models frequently fail to represent the cultural heritage and
values of local communities. This work proposes a methodology to create both
synthetic and retrieval-based pre-training data tailored to a specific
community, considering its (i) language, (ii) cultural heritage, and (iii)
cultural values. We demonstrate our methodology using Egyptian and Moroccan
dialects as testbeds, chosen for their linguistic and cultural richness and
current underrepresentation in LLMs. As a proof-of-concept, we develop
NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities,
incorporating their language, cultural heritage, and values. Our results on
various understanding, translation, and cultural and values alignment
benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar
size and performs on par with larger models. We share our methods, data, and
models with the community to promote the inclusion and coverage of more diverse
communities in LLM development.