ChatPaper.aiChatPaper

El Laboratorio de Lenguas Africanas: Un Enfoque Colaborativo para el Avance del Procesamiento del Lenguaje Natural en Lenguas Africanas de Bajos Recursos

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

October 7, 2025
Autores: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI

Resumen

A pesar de representar casi un tercio de los idiomas del mundo, las lenguas africanas siguen estando gravemente desatendidas por las tecnologías modernas de Procesamiento del Lenguaje Natural (PLN), con un 88\% clasificadas como severamente subrepresentadas o completamente ignoradas en la lingüística computacional. Presentamos el Laboratorio de Lenguas Africanas (All Lab), una iniciativa de investigación integral que aborda esta brecha tecnológica mediante la recopilación sistemática de datos, el desarrollo de modelos y la creación de capacidades. Nuestras contribuciones incluyen: (1) una canalización de recopilación de datos controlada en calidad, que produce el mayor conjunto de datos multimodales validados de habla y texto en lenguas africanas, abarcando 40 idiomas con 19 mil millones de tokens de texto monolingüe y 12,628 horas de datos de habla alineados; (2) una extensa validación experimental que demuestra que nuestro conjunto de datos, combinado con ajuste fino, logra mejoras sustanciales sobre los modelos de referencia, con un promedio de +23.69 ChrF++, +0.33 COMET y +15.34 puntos BLEU en 31 idiomas evaluados; y (3) un programa de investigación estructurado que ha mentorado exitosamente a quince investigadores en etapas iniciales de su carrera, estableciendo una capacidad local sostenible. Nuestra evaluación comparativa frente a Google Translate revela un rendimiento competitivo en varios idiomas, al mismo tiempo que identifica áreas que requieren un desarrollo continuo.
English
Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
PDF202October 9, 2025