ChatPaper.aiChatPaper

MOSEL: 950.000 Stunden Sprachdaten für Open-Source-Sprachgrundlagenmodelltraining in EU-Sprachen

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

October 1, 2024
Autoren: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI

Zusammenfassung

Der Aufstieg von Grundlagenmodellen (FMs), verbunden mit regulatorischen Bemühungen zur Bewältigung ihrer Risiken und Auswirkungen, hat ein großes Interesse an Open-Source-Modellen geweckt. Allerdings erfüllen bestehende Sprachgrundlagenmodelle (SFMs) nicht vollständig die Grundsätze des Open Source, auch wenn dies anders behauptet wird, da kein vorhandenes SFM Modellgewichte, Code und Trainingsdaten öffentlich unter Open-Source-Bedingungen zur Verfügung stellt. In dieser Arbeit gehen wir den ersten Schritt, um diese Lücke zu schließen, indem wir uns auf die 24 Amtssprachen der Europäischen Union (EU) konzentrieren. Wir sammeln geeignete Trainingsdaten, indem wir automatische Spracherkennungsdatensätze und nicht gekennzeichnete Sprachkorpora unter Open-Source-konformen Lizenzen untersuchen, insgesamt 950.000 Stunden. Zusätzlich veröffentlichen wir automatische Transkripte für 441.000 Stunden nicht gekennzeichneter Daten unter der freizügigen CC-BY-Lizenz, um die Erstellung von Open-Source-SFMs für die EU-Sprachen zu erleichtern.
English
The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.

Summary

AI-Generated Summary

PDF152November 16, 2024