ChatPaper.aiChatPaper

MOSEL: 950.000 horas de dados de fala para treinamento de modelos de fundação de fala de código aberto em idiomas da UE

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

October 1, 2024
Autores: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI

Resumo

O surgimento de modelos fundamentais (FMs), juntamente com esforços regulatórios que abordam seus riscos e impactos, tem despertado um interesse significativo em modelos de código aberto. No entanto, os modelos de fala existentes (SFMs) não estão em total conformidade com os princípios de código aberto, mesmo que afirmem o contrário, uma vez que nenhum SFM existente disponibiliza publicamente os pesos do modelo, o código e os dados de treinamento sob termos de código aberto. Neste trabalho, damos o primeiro passo para preencher essa lacuna ao nos concentrarmos nas 24 línguas oficiais da União Europeia (UE). Coletamos dados de treinamento adequados por meio de levantamento de conjuntos de dados de reconhecimento automático de fala e corpora de fala não rotulados sob licenças compatíveis com código aberto, totalizando 950 mil horas. Além disso, disponibilizamos transcrições automáticas para 441 mil horas de dados não rotulados sob a licença permissiva CC-BY, facilitando assim a criação de SFMs de código aberto para as línguas da UE.
English
The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.

Summary

AI-Generated Summary

PDF152November 16, 2024