ChatPaper.aiChatPaper

Il Laboratorio delle Lingue Africane: Un Approccio Collaborativo per il Progresso dell'NLP per Lingue Africane a Basse Risorse

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

October 7, 2025
Autori: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI

Abstract

Nonostante rappresentino quasi un terzo delle lingue mondiali, le lingue africane rimangono gravemente sottoservite dalle moderne tecnologie di NLP, con l'88% classificate come fortemente sottorappresentate o completamente ignorate nella linguistica computazionale. Presentiamo l'African Languages Lab (All Lab), un'iniziativa di ricerca completa che affronta questo divario tecnologico attraverso la raccolta sistematica di dati, lo sviluppo di modelli e il potenziamento delle capacità. I nostri contributi includono: (1) una pipeline di raccolta dati controllata per qualità, che ha prodotto il più grande dataset multimodale validato di discorso e testo africano, comprendente 40 lingue con 19 miliardi di token di testo monolingue e 12.628 ore di dati vocali allineati; (2) un'ampia validazione sperimentale che dimostra come il nostro dataset, combinato con il fine-tuning, raggiunga miglioramenti sostanziali rispetto ai modelli di base, con una media di +23,69 ChrF++, +0,33 COMET e +15,34 punti BLEU su 31 lingue valutate; e (3) un programma di ricerca strutturato che ha formato con successo quindici ricercatori all'inizio della carriera, stabilendo una capacità locale sostenibile. La nostra valutazione comparativa rispetto a Google Translate rivela prestazioni competitive in diverse lingue, identificando al contempo aree che richiedono ulteriori sviluppi.
English
Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
PDF232October 9, 2025