Emilia: Um conjunto de dados extenso, em larga escala, multilíngue e diversificado para Geração de Fala

Resumo

Os avanços recentes na geração de fala têm sido impulsionados pelos conjuntos de dados de treinamento em larga escala. No entanto, os modelos atuais não conseguem capturar adequadamente a espontaneidade e variabilidade inerentes à fala humana do mundo real, devido à sua dependência de conjuntos de dados de audiolivros limitados a estilos formais de leitura em voz alta. Para preencher essa lacuna, apresentamos o Emilia-Pipe, um pipeline de pré-processamento de código aberto para extrair dados de treinamento de alta qualidade de dados valiosos, porém pouco explorados, coletados de forma natural que capturam a fala humana espontânea em contextos do mundo real. Ao alavancar o Emilia-Pipe, construímos o Emilia, o primeiro conjunto de dados de geração de fala multilíngue derivado de dados de fala coletados de forma natural. Este conjunto de dados compreende mais de 101 mil horas de fala em seis idiomas: inglês, chinês, alemão, francês, japonês e coreano. Além disso, expandimos o Emilia para o Emilia-Large, um conjunto de dados que ultrapassa 216 mil horas, tornando-o o maior conjunto de dados de geração de fala de código aberto disponível. Experimentos extensivos demonstram que o Emilia supera significativamente os conjuntos de dados tradicionais de audiolivros na geração de fala espontânea e semelhante à humana, exibindo desempenho superior na captura de diversos timbres de locutores e estilos de fala da fala humana do mundo real. Além disso, este trabalho destaca a importância do aumento do tamanho do conjunto de dados para avançar na pesquisa de geração de fala e valida a eficácia do Emilia tanto para a geração de fala multilíngue quanto para a geração de fala entre idiomas.

English

Recent advancements in speech generation have been driven by the large-scale training datasets. However, current models fall short of capturing the spontaneity and variability inherent in real-world human speech, due to their reliance on audiobook datasets limited to formal read-aloud speech styles. To bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing pipeline to extract high-quality training data from valuable yet underexplored in-the-wild data that capture spontaneous human speech in real-world contexts. By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech generation dataset derived from in-the-wild speech data. This dataset comprises over 101k hours of speech across six languages: English, Chinese, German, French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a dataset exceeding 216k hours, making it the largest open-source speech generation dataset available. Extensive experiments demonstrate that Emilia significantly outperforms traditional audiobook datasets in generating spontaneous and human-like speech, showcasing superior performance in capturing diverse speaker timbre and speaking styles of real-world human speech. Furthermore, this work underscores the importance of scaling dataset size to advance speech generation research and validates the effectiveness of Emilia for both multilingual and crosslingual speech generation.

Emilia: Um conjunto de dados extenso, em larga escala, multilíngue e diversificado para Geração de Fala

Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation

Resumo

Support