ChatPaper.aiChatPaper

O Laboratório de Línguas Africanas: Uma Abordagem Colaborativa para o Avanço do PLN em Línguas Africanas de Baixos Recursos

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

October 7, 2025
Autores: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI

Resumo

Apesar de representarem quase um terço das línguas do mundo, os idiomas africanos permanecem gravemente subatendidos pelas tecnologias modernas de PLN, com 88\% classificados como severamente sub-representados ou completamente ignorados na linguística computacional. Apresentamos o African Languages Lab (All Lab), uma iniciativa de pesquisa abrangente que aborda essa lacuna tecnológica por meio de coleta sistemática de dados, desenvolvimento de modelos e capacitação. Nossas contribuições incluem: (1) um pipeline de coleta de dados com controle de qualidade, resultando no maior conjunto de dados multimodais validados de fala e texto africano, abrangendo 40 idiomas com 19 bilhões de tokens de texto monolíngue e 12.628 horas de dados de fala alinhados; (2) validação experimental extensa demonstrando que nosso conjunto de dados, combinado com ajuste fino, alcança melhorias substanciais em relação aos modelos de base, com médias de +23,69 ChrF++, +0,33 COMET e +15,34 pontos BLEU em 31 idiomas avaliados; e (3) um programa de pesquisa estruturado que orientou com sucesso quinze pesquisadores em início de carreira, estabelecendo capacidade local sustentável. Nossa avaliação comparativa com o Google Translate revela desempenho competitivo em vários idiomas, ao mesmo tempo que identifica áreas que exigem desenvolvimento contínuo.
English
Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
PDF232October 9, 2025