Emilia : un ensemble de données à grande échelle, vaste, multilingue et diversifié pour la génération de discours
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation
January 27, 2025
Auteurs: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
cs.AI
Résumé
Les récents progrès dans la génération de la parole ont été stimulés par les ensembles de données d'entraînement à grande échelle. Cependant, les modèles actuels peinent à capturer la spontanéité et la variabilité inhérentes à la parole humaine réelle, en raison de leur dépendance à des ensembles de données de livres audio limités aux styles de lecture formels. Pour combler ce fossé, nous présentons Emilia-Pipe, un pipeline de prétraitement open-source permettant d'extraire des données d'entraînement de haute qualité à partir de données précieuses mais peu explorées en conditions réelles, capturant la parole humaine spontanée dans des contextes du monde réel. En exploitant Emilia-Pipe, nous construisons Emilia, le premier ensemble de données de génération de parole multilingue dérivé de données de parole en conditions réelles. Cet ensemble de données comprend plus de 101 000 heures de parole dans six langues : anglais, chinois, allemand, français, japonais et coréen. De plus, nous étendons Emilia pour créer Emilia-Large, un ensemble de données dépassant 216 000 heures, ce qui en fait le plus grand ensemble de données de génération de parole open-source disponible. Des expériences approfondies démontrent qu'Emilia surpasse significativement les ensembles de données traditionnels de livres audio dans la génération de parole spontanée et semblable à celle des humains, en présentant des performances supérieures dans la capture de la diversité du timbre des locuteurs et des styles de parole de la parole humaine réelle. En outre, ce travail souligne l'importance de l'augmentation de la taille de l'ensemble de données pour faire progresser la recherche en génération de parole et valide l'efficacité d'Emilia pour la génération de parole à la fois multilingue et crosslingue.
English
Recent advancements in speech generation have been driven by the large-scale
training datasets. However, current models fall short of capturing the
spontaneity and variability inherent in real-world human speech, due to their
reliance on audiobook datasets limited to formal read-aloud speech styles. To
bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing
pipeline to extract high-quality training data from valuable yet underexplored
in-the-wild data that capture spontaneous human speech in real-world contexts.
By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech
generation dataset derived from in-the-wild speech data. This dataset comprises
over 101k hours of speech across six languages: English, Chinese, German,
French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a
dataset exceeding 216k hours, making it the largest open-source speech
generation dataset available. Extensive experiments demonstrate that Emilia
significantly outperforms traditional audiobook datasets in generating
spontaneous and human-like speech, showcasing superior performance in capturing
diverse speaker timbre and speaking styles of real-world human speech.
Furthermore, this work underscores the importance of scaling dataset size to
advance speech generation research and validates the effectiveness of Emilia
for both multilingual and crosslingual speech generation.Summary
AI-Generated Summary