MOSEL: 950 000 часов речевых данных для обучения моделей на основе открытого исходного кода на языках ЕС
MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages
October 1, 2024
Авторы: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Аннотация
Возникновение фундаментальных моделей (FMs), совместно с регулятивными усилиями, направленными на решение их рисков и воздействия, вызвало значительный интерес к моделям с открытым исходным кодом. Однако существующие речевые FM (SFMs) не соответствуют полностью принципам открытого исходного кода, даже если утверждается обратное, поскольку ни один из существующих SFM не имеет весов модели, кода и обучающих данных, доступных публично на условиях открытого исходного кода. В данной работе мы делаем первый шаг к заполнению этого пробела, сосредотачиваясь на 24 официальных языках Европейского союза (EU). Мы собираем подходящие обучающие данные, исследуя наборы данных для автоматического распознавания речи и неразмеченные речевые корпуса, имеющие лицензии, совместимые с открытым исходным кодом, на общую продолжительность 950 тыс. часов. Кроме того, мы предоставляем автоматические транскрипты для 441 тыс. часов неразмеченных данных под лицензией CC-BY, тем самым облегчая создание речевых SFM с открытым исходным кодом для языков EU.
English
The rise of foundation models (FMs), coupled with regulatory efforts
addressing their risks and impacts, has sparked significant interest in
open-source models. However, existing speech FMs (SFMs) fall short of full
compliance with the open-source principles, even if claimed otherwise, as no
existing SFM has model weights, code, and training data publicly available
under open-source terms. In this work, we take the first step toward filling
this gap by focusing on the 24 official languages of the European Union (EU).
We collect suitable training data by surveying automatic speech recognition
datasets and unlabeled speech corpora under open-source compliant licenses, for
a total of 950k hours. Additionally, we release automatic transcripts for 441k
hours of unlabeled data under the permissive CC-BY license, thereby
facilitating the creation of open-source SFMs for the EU languages.Summary
AI-Generated Summary