ChatPaper.aiChatPaper

NileChat: Hacia Modelos de Lenguaje de Gran Escala Lingüísticamente Diversos y Culturalmente Conscientes para Comunidades Locales

NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

May 23, 2025
Autores: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI

Resumen

Mejorar las capacidades lingüísticas de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para incluir idiomas de bajos recursos es un área de investigación crítica. Las direcciones actuales de investigación dependen principalmente de datos sintéticos generados mediante la traducción de corpus en inglés, lo que, si bien demuestra un prometedor entendimiento lingüístico y habilidades de traducción, a menudo resulta en modelos alineados con la cultura del idioma fuente. Estos modelos frecuentemente no logran representar el patrimonio cultural y los valores de las comunidades locales. Este trabajo propone una metodología para crear datos de preentrenamiento tanto sintéticos como basados en recuperación, adaptados a una comunidad específica, considerando su (i) idioma, (ii) patrimonio cultural y (iii) valores culturales. Demostramos nuestra metodología utilizando los dialectos egipcio y marroquí como casos de estudio, elegidos por su riqueza lingüística y cultural y su actual subrepresentación en los LLMs. Como prueba de concepto, desarrollamos NileChat, un LLM de 3 mil millones de parámetros adaptado para las comunidades egipcia y marroquí, incorporando su idioma, patrimonio cultural y valores. Nuestros resultados en varios benchmarks de comprensión, traducción y alineación cultural y de valores muestran que NileChat supera a los LLMs conscientes del árabe de tamaño similar y se desempeña a la par con modelos más grandes. Compartimos nuestros métodos, datos y modelos con la comunidad para promover la inclusión y cobertura de comunidades más diversas en el desarrollo de LLMs.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to include low-resource languages is a critical research area. Current research directions predominantly rely on synthetic data generated by translating English corpora, which, while demonstrating promising linguistic understanding and translation abilities, often results in models aligned with source language culture. These models frequently fail to represent the cultural heritage and values of local communities. This work proposes a methodology to create both synthetic and retrieval-based pre-training data tailored to a specific community, considering its (i) language, (ii) cultural heritage, and (iii) cultural values. We demonstrate our methodology using Egyptian and Moroccan dialects as testbeds, chosen for their linguistic and cultural richness and current underrepresentation in LLMs. As a proof-of-concept, we develop NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities, incorporating their language, cultural heritage, and values. Our results on various understanding, translation, and cultural and values alignment benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar size and performs on par with larger models. We share our methods, data, and models with the community to promote the inclusion and coverage of more diverse communities in LLM development.

Summary

AI-Generated Summary

PDF12May 27, 2025