ChatPaper.aiChatPaper

MOSEL: 950,000 horas de datos de habla para entrenamiento de modelos de código abierto en lenguas de la UE.

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

October 1, 2024
Autores: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI

Resumen

El surgimiento de modelos fundamentales (FMs), junto con los esfuerzos regulatorios que abordan sus riesgos e impactos, ha generado un gran interés en los modelos de código abierto. Sin embargo, los modelos fundamentales de habla existentes (SFMs) no cumplen completamente con los principios de código abierto, incluso si se afirma lo contrario, ya que ningún SFM existente tiene los pesos del modelo, el código y los datos de entrenamiento disponibles públicamente bajo términos de código abierto. En este trabajo, damos el primer paso para llenar esta brecha centrándonos en los 24 idiomas oficiales de la Unión Europea (UE). Recopilamos datos de entrenamiento adecuados mediante la encuesta de conjuntos de datos de reconocimiento automático del habla y corpus de habla no etiquetados bajo licencias compatibles con código abierto, para un total de 950 mil horas. Además, publicamos transcripciones automáticas para 441 mil horas de datos no etiquetados bajo la licencia permisiva CC-BY, facilitando así la creación de SFMs de código abierto para los idiomas de la UE.
English
The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.

Summary

AI-Generated Summary

PDF152November 16, 2024