ChatPaper.aiChatPaper

Het African Languages Lab: Een Collaboratieve Benadering voor de Vooruitgang van NLP voor Laagtaalrijke Afrikaanse Talen

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

October 7, 2025
Auteurs: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI

Samenvatting

Ondanks het feit dat ze bijna een derde van de talen in de wereld vertegenwoordigen, worden Afrikaanse talen ernstig onderbediend door moderne NLP-technologieën, waarbij 88\% wordt geclassificeerd als sterk ondervertegenwoordigd of volledig genegeerd in de computationele linguïstiek. Wij presenteren het African Languages Lab (All Lab), een uitgebreid onderzoeksinitiatief dat deze technologische kloof aanpakt door middel van systematische dataverzameling, modelontwikkeling en capaciteitsopbouw. Onze bijdragen omvatten: (1) een kwaliteitsgecontroleerde dataverzamelingspijplijn, die resulteert in de grootste gevalideerde Afrikaanse multimodale spraak- en tekstdataset, die 40 talen omvat met 19 miljard tokens van eentalige tekst en 12.628 uur uitgelijnde spraakdata; (2) uitgebreide experimentele validatie die aantoont dat onze dataset, gecombineerd met fine-tuning, aanzienlijke verbeteringen oplevert ten opzichte van baseline-modellen, met gemiddeld +23,69 ChrF++, +0,33 COMET en +15,34 BLEU-punten over 31 geëvalueerde talen; en (3) een gestructureerd onderzoeksprogramma dat met succes vijftien beginnende onderzoekers heeft begeleid, waardoor duurzame lokale capaciteit is gecreëerd. Onze vergelijkende evaluatie tegenover Google Translate laat competitieve prestaties zien in verschillende talen, terwijl gebieden die verdere ontwikkeling vereisen worden geïdentificeerd.
English
Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
PDF232October 9, 2025