ChatPaper.aiChatPaper

MOSEL: 950.000 uur spraakgegevens voor open-source spraakmodeltraining in EU-talen.

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

October 1, 2024
Auteurs: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI

Samenvatting

De opkomst van grondleggende modellen (GM's), in combinatie met regelgevende inspanningen die zich richten op hun risico's en impact, heeft aanzienlijke interesse gewekt in open-source modellen. Echter, bestaande spraak GM's (SGM's) voldoen niet volledig aan de open-source principes, zelfs als anders wordt beweerd, aangezien geen enkele bestaande SGM modelgewichten, code en trainingsdata openbaar beschikbaar heeft onder open-source voorwaarden. In dit werk zetten we de eerste stap om deze lacune te vullen door ons te richten op de 24 officiële talen van de Europese Unie (EU). We verzamelen geschikte trainingsdata door automatische spraakherkenningsdatasets en ongelabelde spraakcorpora te onderzoeken die voldoen aan open-source licenties, met een totaal van 950k uur. Daarnaast publiceren we automatische transcripties voor 441k uur aan ongelabelde data onder de toegeeflijke CC-BY licentie, waardoor de ontwikkeling van open-source SGM's voor de EU-talen wordt vergemakkelijkt.
English
The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.

Summary

AI-Generated Summary

PDF152November 16, 2024