ChatPaper.aiChatPaper

Le Laboratoire des Langues Africaines : Une Approche Collaborative pour Faire Progresser le Traitement Automatique des Langues Africaines à Faibles Ressources

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

October 7, 2025
papers.authors: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI

papers.abstract

Bien qu'elles représentent près d'un tiers des langues du monde, les langues africaines restent gravement sous-desservies par les technologies modernes de traitement du langage naturel (NLP), avec 88 % classées comme sévèrement sous-représentées ou complètement ignorées en linguistique computationnelle. Nous présentons l'African Languages Lab (All Lab), une initiative de recherche exhaustive qui comble cette lacune technologique grâce à une collecte systématique de données, au développement de modèles et au renforcement des capacités. Nos contributions incluent : (1) un pipeline de collecte de données contrôlé en qualité, produisant le plus grand ensemble de données multimodales validé pour les langues africaines, couvrant 40 langues avec 19 milliards de tokens de texte monolingue et 12 628 heures de données vocales alignées ; (2) une validation expérimentale approfondie démontrant que notre ensemble de données, combiné à un ajustement fin, permet des améliorations substantielles par rapport aux modèles de référence, avec des gains moyens de +23,69 ChrF++, +0,33 COMET et +15,34 points BLEU sur 31 langues évaluées ; et (3) un programme de recherche structuré qui a encadré avec succès quinze chercheurs en début de carrière, établissant ainsi une capacité locale durable. Notre évaluation comparative avec Google Translate révèle des performances compétitives pour plusieurs langues tout en identifiant les domaines nécessitant un développement continu.
English
Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
PDF202October 9, 2025