NileChat: Verso Modelli Linguistici Multilingue e Culturalmente Consapevoli per Comunità Locali

Abstract

Migliorare le capacità linguistiche dei Large Language Models (LLM) per includere lingue a bassa risorsa rappresenta un'area di ricerca cruciale. Le attuali direzioni di ricerca si basano principalmente su dati sintetici generati attraverso la traduzione di corpora inglesi, che, pur dimostrando una promettente comprensione linguistica e abilità di traduzione, spesso portano a modelli allineati con la cultura della lingua sorgente. Questi modelli frequentemente non riescono a rappresentare il patrimonio culturale e i valori delle comunità locali. Questo lavoro propone una metodologia per creare dati di pre-addestramento sia sintetici che basati su retrieval, specificamente adattati a una determinata comunità, tenendo conto di (i) lingua, (ii) patrimonio culturale e (iii) valori culturali. Dimostriamo la nostra metodologia utilizzando i dialetti egiziani e marocchini come casi di studio, scelti per la loro ricchezza linguistica e culturale e per la loro attuale sottorappresentazione nei LLM. Come prova di concetto, sviluppiamo NileChat, un LLM da 3 miliardi di parametri adattato per le comunità egiziane e marocchine, incorporando la loro lingua, patrimonio culturale e valori. I nostri risultati su vari benchmark di comprensione, traduzione e allineamento culturale e valoriale mostrano che NileChat supera i LLM esistenti di dimensioni simili consapevoli dell'arabo e si comporta alla pari con modelli più grandi. Condividiamo i nostri metodi, dati e modelli con la comunità per promuovere l'inclusione e la copertura di comunità più diversificate nello sviluppo dei LLM.

English

Enhancing the linguistic capabilities of Large Language Models (LLMs) to include low-resource languages is a critical research area. Current research directions predominantly rely on synthetic data generated by translating English corpora, which, while demonstrating promising linguistic understanding and translation abilities, often results in models aligned with source language culture. These models frequently fail to represent the cultural heritage and values of local communities. This work proposes a methodology to create both synthetic and retrieval-based pre-training data tailored to a specific community, considering its (i) language, (ii) cultural heritage, and (iii) cultural values. We demonstrate our methodology using Egyptian and Moroccan dialects as testbeds, chosen for their linguistic and cultural richness and current underrepresentation in LLMs. As a proof-of-concept, we develop NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities, incorporating their language, cultural heritage, and values. Our results on various understanding, translation, and cultural and values alignment benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar size and performs on par with larger models. We share our methods, data, and models with the community to promote the inclusion and coverage of more diverse communities in LLM development.

NileChat: Verso Modelli Linguistici Multilingue e Culturalmente Consapevoli per Comunità Locali

NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

Abstract

Support