El Laboratorio de Lenguas Africanas: Un Enfoque Colaborativo para el Avance del Procesamiento del Lenguaje Natural en Lenguas Africanas de Bajos Recursos
The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP
October 7, 2025
Autores: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI
Resumen
A pesar de representar casi un tercio de los idiomas del mundo, las lenguas africanas siguen estando gravemente desatendidas por las tecnologías modernas de Procesamiento del Lenguaje Natural (PLN), con un 88\% clasificadas como severamente subrepresentadas o completamente ignoradas en la lingüística computacional. Presentamos el Laboratorio de Lenguas Africanas (All Lab), una iniciativa de investigación integral que aborda esta brecha tecnológica mediante la recopilación sistemática de datos, el desarrollo de modelos y la creación de capacidades. Nuestras contribuciones incluyen: (1) una canalización de recopilación de datos controlada en calidad, que produce el mayor conjunto de datos multimodales validados de habla y texto en lenguas africanas, abarcando 40 idiomas con 19 mil millones de tokens de texto monolingüe y 12,628 horas de datos de habla alineados; (2) una extensa validación experimental que demuestra que nuestro conjunto de datos, combinado con ajuste fino, logra mejoras sustanciales sobre los modelos de referencia, con un promedio de +23.69 ChrF++, +0.33 COMET y +15.34 puntos BLEU en 31 idiomas evaluados; y (3) un programa de investigación estructurado que ha mentorado exitosamente a quince investigadores en etapas iniciales de su carrera, estableciendo una capacidad local sostenible. Nuestra evaluación comparativa frente a Google Translate revela un rendimiento competitivo en varios idiomas, al mismo tiempo que identifica áreas que requieren un desarrollo continuo.
English
Despite representing nearly one-third of the world's languages, African
languages remain critically underserved by modern NLP technologies, with 88\%
classified as severely underrepresented or completely ignored in computational
linguistics. We present the African Languages Lab (All Lab), a comprehensive
research initiative that addresses this technological gap through systematic
data collection, model development, and capacity building. Our contributions
include: (1) a quality-controlled data collection pipeline, yielding the
largest validated African multi-modal speech and text dataset spanning 40
languages with 19 billion tokens of monolingual text and 12,628 hours of
aligned speech data; (2) extensive experimental validation demonstrating that
our dataset, combined with fine-tuning, achieves substantial improvements over
baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points
across 31 evaluated languages; and (3) a structured research program that has
successfully mentored fifteen early-career researchers, establishing
sustainable local capacity. Our comparative evaluation against Google Translate
reveals competitive performance in several languages while identifying areas
that require continued development.