アフリカ言語ラボ:低リソースアフリカNLPの推進に向けた協力的アプローチ
The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP
October 7, 2025
著者: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel
cs.AI
要旨
世界の言語のほぼ3分の1を占めるにもかかわらず、アフリカの言語は現代の自然言語処理(NLP)技術において深刻なサービス不足に直面しており、88%が計算言語学において深刻に過小評価されているか、完全に無視されていると分類されています。本論文では、この技術的ギャップを体系的データ収集、モデル開発、キャパシティビルディングを通じて解決する包括的な研究イニシアチブであるAfrican Languages Lab(All Lab)を紹介します。私たちの貢献は以下の通りです:(1)品質管理されたデータ収集パイプラインにより、40言語にわたる最大の検証済みアフリカ多モーダル音声・テキストデータセットを構築し、190億トークンの単一言語テキストと12,628時間のアラインメントされた音声データを収集しました;(2)私たちのデータセットとファインチューニングを組み合わせることで、ベースラインモデルを大幅に改善し、31の評価対象言語において平均+23.69 ChrF++、+0.33 COMET、+15.34 BLEUポイントの向上を実証しました;(3)15名の初期キャリア研究者を成功裏に指導し、持続可能な地域キャパシティを確立した構造化された研究プログラムを実施しました。Google翻訳との比較評価では、いくつかの言語で競争力のある性能を示す一方で、継続的な開発が必要な領域を特定しました。
English
Despite representing nearly one-third of the world's languages, African
languages remain critically underserved by modern NLP technologies, with 88\%
classified as severely underrepresented or completely ignored in computational
linguistics. We present the African Languages Lab (All Lab), a comprehensive
research initiative that addresses this technological gap through systematic
data collection, model development, and capacity building. Our contributions
include: (1) a quality-controlled data collection pipeline, yielding the
largest validated African multi-modal speech and text dataset spanning 40
languages with 19 billion tokens of monolingual text and 12,628 hours of
aligned speech data; (2) extensive experimental validation demonstrating that
our dataset, combined with fine-tuning, achieves substantial improvements over
baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points
across 31 evaluated languages; and (3) a structured research program that has
successfully mentored fifteen early-career researchers, establishing
sustainable local capacity. Our comparative evaluation against Google Translate
reveals competitive performance in several languages while identifying areas
that require continued development.