Emilia: Um conjunto de dados extenso, em larga escala, multilíngue e diversificado para Geração de Fala
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation
January 27, 2025
Autores: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
cs.AI
Resumo
Os avanços recentes na geração de fala têm sido impulsionados pelos conjuntos de dados de treinamento em larga escala. No entanto, os modelos atuais não conseguem capturar adequadamente a espontaneidade e variabilidade inerentes à fala humana do mundo real, devido à sua dependência de conjuntos de dados de audiolivros limitados a estilos formais de leitura em voz alta. Para preencher essa lacuna, apresentamos o Emilia-Pipe, um pipeline de pré-processamento de código aberto para extrair dados de treinamento de alta qualidade de dados valiosos, porém pouco explorados, coletados de forma natural que capturam a fala humana espontânea em contextos do mundo real. Ao alavancar o Emilia-Pipe, construímos o Emilia, o primeiro conjunto de dados de geração de fala multilíngue derivado de dados de fala coletados de forma natural. Este conjunto de dados compreende mais de 101 mil horas de fala em seis idiomas: inglês, chinês, alemão, francês, japonês e coreano. Além disso, expandimos o Emilia para o Emilia-Large, um conjunto de dados que ultrapassa 216 mil horas, tornando-o o maior conjunto de dados de geração de fala de código aberto disponível. Experimentos extensivos demonstram que o Emilia supera significativamente os conjuntos de dados tradicionais de audiolivros na geração de fala espontânea e semelhante à humana, exibindo desempenho superior na captura de diversos timbres de locutores e estilos de fala da fala humana do mundo real. Além disso, este trabalho destaca a importância do aumento do tamanho do conjunto de dados para avançar na pesquisa de geração de fala e valida a eficácia do Emilia tanto para a geração de fala multilíngue quanto para a geração de fala entre idiomas.
English
Recent advancements in speech generation have been driven by the large-scale
training datasets. However, current models fall short of capturing the
spontaneity and variability inherent in real-world human speech, due to their
reliance on audiobook datasets limited to formal read-aloud speech styles. To
bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing
pipeline to extract high-quality training data from valuable yet underexplored
in-the-wild data that capture spontaneous human speech in real-world contexts.
By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech
generation dataset derived from in-the-wild speech data. This dataset comprises
over 101k hours of speech across six languages: English, Chinese, German,
French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a
dataset exceeding 216k hours, making it the largest open-source speech
generation dataset available. Extensive experiments demonstrate that Emilia
significantly outperforms traditional audiobook datasets in generating
spontaneous and human-like speech, showcasing superior performance in capturing
diverse speaker timbre and speaking styles of real-world human speech.
Furthermore, this work underscores the importance of scaling dataset size to
advance speech generation research and validates the effectiveness of Emilia
for both multilingual and crosslingual speech generation.Summary
AI-Generated Summary