MOSEL: 950.000 ore di dati vocali per l'addestramento di modelli open-source per la fondazione della lingua parlata su lingue dell'UE.
MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages
October 1, 2024
Autori: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI
Abstract
L'ascesa dei modelli di base (FMs), unita agli sforzi normativi che affrontano i loro rischi e impatti, ha suscitato un notevole interesse nei modelli open-source. Tuttavia, i modelli di linguaggio per il riconoscimento vocale esistenti (SFMs) non rispettano pienamente i principi open-source, anche se dichiarato diversamente, poiché nessun SFM esistente mette a disposizione pubblicamente i pesi del modello, il codice e i dati di addestramento secondo termini open-source. In questo lavoro, compiamo il primo passo per colmare questa lacuna concentrandoci sulle 24 lingue ufficiali dell'Unione Europea (UE). Raccogliamo dati di addestramento adeguati attraverso l'analisi di set di dati per il riconoscimento vocale automatico e corpora di discorsi non etichettati con licenze conformi agli standard open-source, per un totale di 950.000 ore. Inoltre, rilasciamo trascrizioni automatiche per 441.000 ore di dati non etichettati con licenza permissiva CC-BY, agevolando così la creazione di SFMs open-source per le lingue dell'UE.
English
The rise of foundation models (FMs), coupled with regulatory efforts
addressing their risks and impacts, has sparked significant interest in
open-source models. However, existing speech FMs (SFMs) fall short of full
compliance with the open-source principles, even if claimed otherwise, as no
existing SFM has model weights, code, and training data publicly available
under open-source terms. In this work, we take the first step toward filling
this gap by focusing on the 24 official languages of the European Union (EU).
We collect suitable training data by surveying automatic speech recognition
datasets and unlabeled speech corpora under open-source compliant licenses, for
a total of 950k hours. Additionally, we release automatic transcripts for 441k
hours of unlabeled data under the permissive CC-BY license, thereby
facilitating the creation of open-source SFMs for the EU languages.