Het African Languages Lab: Een Collaboratieve Benadering voor de Vooruitgang van NLP voor Laagtaalrijke Afrikaanse Talen
The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP
October 7, 2025
Auteurs: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI
Samenvatting
Ondanks het feit dat ze bijna een derde van de talen in de wereld vertegenwoordigen, worden Afrikaanse talen ernstig onderbediend door moderne NLP-technologieën, waarbij 88\% wordt geclassificeerd als sterk ondervertegenwoordigd of volledig genegeerd in de computationele linguïstiek. Wij presenteren het African Languages Lab (All Lab), een uitgebreid onderzoeksinitiatief dat deze technologische kloof aanpakt door middel van systematische dataverzameling, modelontwikkeling en capaciteitsopbouw. Onze bijdragen omvatten: (1) een kwaliteitsgecontroleerde dataverzamelingspijplijn, die resulteert in de grootste gevalideerde Afrikaanse multimodale spraak- en tekstdataset, die 40 talen omvat met 19 miljard tokens van eentalige tekst en 12.628 uur uitgelijnde spraakdata; (2) uitgebreide experimentele validatie die aantoont dat onze dataset, gecombineerd met fine-tuning, aanzienlijke verbeteringen oplevert ten opzichte van baseline-modellen, met gemiddeld +23,69 ChrF++, +0,33 COMET en +15,34 BLEU-punten over 31 geëvalueerde talen; en (3) een gestructureerd onderzoeksprogramma dat met succes vijftien beginnende onderzoekers heeft begeleid, waardoor duurzame lokale capaciteit is gecreëerd. Onze vergelijkende evaluatie tegenover Google Translate laat competitieve prestaties zien in verschillende talen, terwijl gebieden die verdere ontwikkeling vereisen worden geïdentificeerd.
English
Despite representing nearly one-third of the world's languages, African
languages remain critically underserved by modern NLP technologies, with 88\%
classified as severely underrepresented or completely ignored in computational
linguistics. We present the African Languages Lab (All Lab), a comprehensive
research initiative that addresses this technological gap through systematic
data collection, model development, and capacity building. Our contributions
include: (1) a quality-controlled data collection pipeline, yielding the
largest validated African multi-modal speech and text dataset spanning 40
languages with 19 billion tokens of monolingual text and 12,628 hours of
aligned speech data; (2) extensive experimental validation demonstrating that
our dataset, combined with fine-tuning, achieves substantial improvements over
baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points
across 31 evaluated languages; and (3) a structured research program that has
successfully mentored fifteen early-career researchers, establishing
sustainable local capacity. Our comparative evaluation against Google Translate
reveals competitive performance in several languages while identifying areas
that require continued development.