Emilia: Un conjunto de datos a gran escala, extenso, multilingüe y diverso para la generación de voz
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation
January 27, 2025
Autores: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
cs.AI
Resumen
Los avances recientes en la generación de voz han sido impulsados por conjuntos de datos de entrenamiento a gran escala. Sin embargo, los modelos actuales no logran capturar la espontaneidad y variabilidad inherentes en el habla humana del mundo real, debido a su dependencia de conjuntos de datos de audiolibros limitados a estilos formales de lectura en voz alta. Para cerrar esta brecha, presentamos Emilia-Pipe, un pipeline de preprocesamiento de código abierto para extraer datos de entrenamiento de alta calidad de valiosos pero poco explorados datos en la naturaleza que capturan el habla humana espontánea en contextos del mundo real. Al aprovechar Emilia-Pipe, construimos Emilia, el primer conjunto de datos de generación de voz multilingüe derivado de datos de habla en la naturaleza. Este conjunto de datos comprende más de 101k horas de habla en seis idiomas: inglés, chino, alemán, francés, japonés y coreano. Además, ampliamos Emilia a Emilia-Large, un conjunto de datos que supera las 216k horas, convirtiéndolo en el conjunto de datos de generación de voz de código abierto más grande disponible. Experimentos extensos demuestran que Emilia supera significativamente a los conjuntos de datos tradicionales de audiolibros en la generación de habla espontánea y similar a la humana, mostrando un rendimiento superior en la captura de diversos timbres de hablantes y estilos de habla del habla humana del mundo real. Además, este trabajo subraya la importancia de aumentar el tamaño del conjunto de datos para avanzar en la investigación de generación de voz y valida la efectividad de Emilia tanto para la generación de voz multilingüe como para la generación de voz cruzada.
English
Recent advancements in speech generation have been driven by the large-scale
training datasets. However, current models fall short of capturing the
spontaneity and variability inherent in real-world human speech, due to their
reliance on audiobook datasets limited to formal read-aloud speech styles. To
bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing
pipeline to extract high-quality training data from valuable yet underexplored
in-the-wild data that capture spontaneous human speech in real-world contexts.
By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech
generation dataset derived from in-the-wild speech data. This dataset comprises
over 101k hours of speech across six languages: English, Chinese, German,
French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a
dataset exceeding 216k hours, making it the largest open-source speech
generation dataset available. Extensive experiments demonstrate that Emilia
significantly outperforms traditional audiobook datasets in generating
spontaneous and human-like speech, showcasing superior performance in capturing
diverse speaker timbre and speaking styles of real-world human speech.
Furthermore, this work underscores the importance of scaling dataset size to
advance speech generation research and validates the effectiveness of Emilia
for both multilingual and crosslingual speech generation.Summary
AI-Generated Summary