Emilia : un ensemble de données à grande échelle, vaste, multilingue et diversifié pour la génération de discours

Résumé

Les récents progrès dans la génération de la parole ont été stimulés par les ensembles de données d'entraînement à grande échelle. Cependant, les modèles actuels peinent à capturer la spontanéité et la variabilité inhérentes à la parole humaine réelle, en raison de leur dépendance à des ensembles de données de livres audio limités aux styles de lecture formels. Pour combler ce fossé, nous présentons Emilia-Pipe, un pipeline de prétraitement open-source permettant d'extraire des données d'entraînement de haute qualité à partir de données précieuses mais peu explorées en conditions réelles, capturant la parole humaine spontanée dans des contextes du monde réel. En exploitant Emilia-Pipe, nous construisons Emilia, le premier ensemble de données de génération de parole multilingue dérivé de données de parole en conditions réelles. Cet ensemble de données comprend plus de 101 000 heures de parole dans six langues : anglais, chinois, allemand, français, japonais et coréen. De plus, nous étendons Emilia pour créer Emilia-Large, un ensemble de données dépassant 216 000 heures, ce qui en fait le plus grand ensemble de données de génération de parole open-source disponible. Des expériences approfondies démontrent qu'Emilia surpasse significativement les ensembles de données traditionnels de livres audio dans la génération de parole spontanée et semblable à celle des humains, en présentant des performances supérieures dans la capture de la diversité du timbre des locuteurs et des styles de parole de la parole humaine réelle. En outre, ce travail souligne l'importance de l'augmentation de la taille de l'ensemble de données pour faire progresser la recherche en génération de parole et valide l'efficacité d'Emilia pour la génération de parole à la fois multilingue et crosslingue.

English

Recent advancements in speech generation have been driven by the large-scale training datasets. However, current models fall short of capturing the spontaneity and variability inherent in real-world human speech, due to their reliance on audiobook datasets limited to formal read-aloud speech styles. To bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing pipeline to extract high-quality training data from valuable yet underexplored in-the-wild data that capture spontaneous human speech in real-world contexts. By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech generation dataset derived from in-the-wild speech data. This dataset comprises over 101k hours of speech across six languages: English, Chinese, German, French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a dataset exceeding 216k hours, making it the largest open-source speech generation dataset available. Extensive experiments demonstrate that Emilia significantly outperforms traditional audiobook datasets in generating spontaneous and human-like speech, showcasing superior performance in capturing diverse speaker timbre and speaking styles of real-world human speech. Furthermore, this work underscores the importance of scaling dataset size to advance speech generation research and validates the effectiveness of Emilia for both multilingual and crosslingual speech generation.