NileChat: на пути к лингвистически разнообразным и культурно осознанным языковым моделям для локальных сообществ
NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities
May 23, 2025
Авторы: Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
cs.AI
Аннотация
Улучшение лингвистических возможностей крупных языковых моделей (LLM) для включения малоресурсных языков является важным направлением исследований. Современные подходы в основном опираются на синтетические данные, созданные путем перевода английских корпусов, которые, хотя и демонстрируют перспективные способности в понимании и переводе, часто приводят к моделям, ориентированным на культуру исходного языка. Такие модели зачастую не отражают культурное наследие и ценности локальных сообществ. В данной работе предлагается методология создания как синтетических, так и основанных на извлечении данных для предварительного обучения, адаптированных под конкретное сообщество с учетом его (i) языка, (ii) культурного наследия и (iii) культурных ценностей. Мы демонстрируем нашу методологию на примере египетского и марокканского диалектов, выбранных за их лингвистическое и культурное богатство и текущую недостаточную представленность в LLM. В качестве доказательства концепции мы разрабатываем NileChat, LLM с 3 миллиардами параметров, адаптированную для египетского и марокканского сообществ, учитывающую их язык, культурное наследие и ценности. Наши результаты на различных тестах по пониманию, переводу, а также культурной и ценностной адаптации показывают, что NileChat превосходит существующие LLM, ориентированные на арабский язык, сопоставимые по размеру, и демонстрирует результаты на уровне более крупных моделей. Мы делимся нашими методами, данными и моделями с сообществом, чтобы способствовать включению и охвату более разнообразных сообществ в разработке LLM.
English
Enhancing the linguistic capabilities of Large Language Models (LLMs) to
include low-resource languages is a critical research area. Current research
directions predominantly rely on synthetic data generated by translating
English corpora, which, while demonstrating promising linguistic understanding
and translation abilities, often results in models aligned with source language
culture. These models frequently fail to represent the cultural heritage and
values of local communities. This work proposes a methodology to create both
synthetic and retrieval-based pre-training data tailored to a specific
community, considering its (i) language, (ii) cultural heritage, and (iii)
cultural values. We demonstrate our methodology using Egyptian and Moroccan
dialects as testbeds, chosen for their linguistic and cultural richness and
current underrepresentation in LLMs. As a proof-of-concept, we develop
NileChat, a 3B parameter LLM adapted for Egyptian and Moroccan communities,
incorporating their language, cultural heritage, and values. Our results on
various understanding, translation, and cultural and values alignment
benchmarks show that NileChat outperforms existing Arabic-aware LLMs of similar
size and performs on par with larger models. We share our methods, data, and
models with the community to promote the inclusion and coverage of more diverse
communities in LLM development.Summary
AI-Generated Summary