ChatPaper.aiChatPaper

MOSEL : 950 000 heures de données vocales pour la formation de modèles de base de la parole en source ouverte sur les langues de l'UE

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

October 1, 2024
Auteurs: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI

Résumé

L'avènement des modèles de base (FMs), associé aux efforts réglementaires visant à traiter leurs risques et impacts, a suscité un intérêt considérable pour les modèles open source. Cependant, les modèles de base de la parole existants (SFMs) ne respectent pas pleinement les principes open source, même s'ils prétendent le contraire, car aucun SFM existant n'a ses poids de modèle, son code et ses données d'entraînement disponibles publiquement selon des termes open source. Dans ce travail, nous franchissons la première étape pour combler ce fossé en nous concentrant sur les 24 langues officielles de l'Union européenne (UE). Nous collectons des données d'entraînement appropriées en examinant des ensembles de données de reconnaissance automatique de la parole et des corpus de parole non étiquetés sous des licences conformes à l'open source, pour un total de 950 000 heures. De plus, nous publions des transcriptions automatiques pour 441 000 heures de données non étiquetées sous la licence permissive CC-BY, facilitant ainsi la création de SFMs open source pour les langues de l'UE.
English
The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.

Summary

AI-Generated Summary

PDF152November 16, 2024