ChatPaper.aiChatPaper

Das African Languages Lab: Ein kooperativer Ansatz zur Förderung von NLP für afrikanische Sprachen mit geringen Ressourcen

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

October 7, 2025
papers.authors: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI

papers.abstract

Obwohl afrikanische Sprachen fast ein Drittel der weltweiten Sprachen repräsentieren, bleiben sie von modernen NLP-Technologien kritisch unterversorgt, wobei 88 % als stark unterrepräsentiert oder in der Computerlinguistik vollständig ignoriert eingestuft werden. Wir präsentieren das African Languages Lab (All Lab), eine umfassende Forschungsinitiative, die diese technologische Lücke durch systematische Datenerfassung, Modellentwicklung und Kapazitätsaufbau adressiert. Unsere Beiträge umfassen: (1) eine qualitätskontrollierte Datenerfassungspipeline, die den größten validierten multimodalen Sprach- und Textdatensatz für afrikanische Sprachen umfasst, der 40 Sprachen mit 19 Milliarden Token monolingualen Textes und 12.628 Stunden ausgerichteter Sprachdaten abdeckt; (2) umfangreiche experimentelle Validierungen, die zeigen, dass unser Datensatz in Kombination mit Feinabstimmung erhebliche Verbesserungen gegenüber Baseline-Modellen erzielt, mit durchschnittlich +23,69 ChrF++, +0,33 COMET und +15,34 BLEU-Punkten über 31 evaluierte Sprachen hinweg; und (3) ein strukturiertes Forschungsprogramm, das erfolgreich fünfzehn Nachwuchsforscher betreut hat und nachhaltige lokale Kapazitäten etabliert. Unsere vergleichende Bewertung gegenüber Google Translate zeigt wettbewerbsfähige Leistungen in mehreren Sprachen, während Bereiche identifiziert werden, die weiterer Entwicklung bedürfen.
English
Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
PDF202October 9, 2025