MOSEL: オープンソース音声基盤のための950,000時間の音声データ EU言語のモデルトレーニングに
MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages
October 1, 2024
著者: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
要旨
Foundation Models(FM)の台頭と、それに伴うリスクや影響に対処する規制措置が、オープンソースモデルへの大きな関心を引き起こしています。しかし、既存の音声FM(SFM)は、公言されているとはいえ、既存のSFMがモデルの重み、コード、およびトレーニングデータをオープンソース条件下で公開していないため、オープンソース原則に完全に準拠していないと言えます。本研究では、この課題に取り組む最初の一歩として、欧州連合(EU)の24の公用語に焦点を当てます。我々は、オープンソースに準拠したライセンスの下で、自動音声認識データセットや未ラベルの音声コーパスを調査し、合計950k時間の適切なトレーニングデータを収集しました。さらに、許諾のCC-BYライセンスの下で441k時間の未ラベルデータの自動トランスクリプトを公開することで、EU言語向けのオープンソースSFMの作成を促進しています。
English
The rise of foundation models (FMs), coupled with regulatory efforts
addressing their risks and impacts, has sparked significant interest in
open-source models. However, existing speech FMs (SFMs) fall short of full
compliance with the open-source principles, even if claimed otherwise, as no
existing SFM has model weights, code, and training data publicly available
under open-source terms. In this work, we take the first step toward filling
this gap by focusing on the 24 official languages of the European Union (EU).
We collect suitable training data by surveying automatic speech recognition
datasets and unlabeled speech corpora under open-source compliant licenses, for
a total of 950k hours. Additionally, we release automatic transcripts for 441k
hours of unlabeled data under the permissive CC-BY license, thereby
facilitating the creation of open-source SFMs for the EU languages.Summary
AI-Generated Summary