ChatPaper.aiChatPaper

Лаборатория африканских языков: совместный подход к развитию обработки естественного языка для малоресурсных африканских языков

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

October 7, 2025
Авторы: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI

Аннотация

Несмотря на то, что африканские языки составляют почти треть всех языков мира, они остаются крайне недостаточно охваченными современными технологиями обработки естественного языка (NLP), причем 88\% из них классифицируются как сильно недооцененные или полностью игнорируемые в вычислительной лингвистике. Мы представляем African Languages Lab (All Lab) — комплексную исследовательскую инициативу, направленную на устранение этого технологического разрыва через систематический сбор данных, разработку моделей и развитие потенциала. Наши вклады включают: (1) качественно контролируемый процесс сбора данных, который привел к созданию крупнейшего проверенного мультимодального набора данных для африканских языков, охватывающего 40 языков с 19 миллиардами токенов монолингвального текста и 12 628 часами выровненных речевых данных; (2) обширную экспериментальную проверку, демонстрирующую, что наш набор данных в сочетании с тонкой настройкой обеспечивает значительное улучшение по сравнению с базовыми моделями, в среднем на +23,69 ChrF++, +0,33 COMET и +15,34 BLEU по 31 оцениваемому языку; и (3) структурированную исследовательскую программу, которая успешно наставила пятнадцать начинающих исследователей, создав устойчивый локальный потенциал. Наше сравнительное тестирование с Google Translate показывает конкурентоспособные результаты для нескольких языков, одновременно выявляя области, требующие дальнейшего развития.
English
Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
PDF202October 9, 2025