Emilia: un dataset di grandi dimensioni, esteso, multilingue e diversificato per la generazione di speech
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation
January 27, 2025
Autori: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
cs.AI
Abstract
I recenti progressi nella generazione del linguaggio parlato sono stati guidati dai dataset di addestramento su larga scala. Tuttavia, i modelli attuali non riescono a catturare la spontaneità e la variabilità intrinseca nel linguaggio umano del mondo reale, a causa della loro dipendenza da dataset di audiolibri limitati a stili di lettura formale. Per colmare questa lacuna, presentiamo Emilia-Pipe, un pipeline di preprocessing open-source per estrarre dati di addestramento di alta qualità da preziosi ma poco esplorati dati in-the-wild che catturano il linguaggio umano spontaneo in contesti reali. Sfruttando Emilia-Pipe, costruiamo Emilia, il primo dataset multilingue per la generazione del linguaggio parlato derivato da dati di linguaggio spontaneo in-the-wild. Questo dataset comprende oltre 101.000 ore di linguaggio parlato in sei lingue: inglese, cinese, tedesco, francese, giapponese e coreano. Inoltre, espandiamo Emilia in Emilia-Large, un dataset che supera le 216.000 ore, diventando il più grande dataset open-source per la generazione del linguaggio parlato disponibile. Estesi esperimenti dimostrano che Emilia supera significativamente i tradizionali dataset di audiolibri nella generazione di linguaggio spontaneo e simile a quello umano, mostrando prestazioni superiori nella cattura di diversi timbri degli speaker e stili di parlato del linguaggio umano del mondo reale. Inoltre, questo lavoro sottolinea l'importanza di aumentare le dimensioni del dataset per far progredire la ricerca sulla generazione del linguaggio parlato e convalida l'efficacia di Emilia sia per la generazione del linguaggio parlato multilingue che crosslingua.
English
Recent advancements in speech generation have been driven by the large-scale
training datasets. However, current models fall short of capturing the
spontaneity and variability inherent in real-world human speech, due to their
reliance on audiobook datasets limited to formal read-aloud speech styles. To
bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing
pipeline to extract high-quality training data from valuable yet underexplored
in-the-wild data that capture spontaneous human speech in real-world contexts.
By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech
generation dataset derived from in-the-wild speech data. This dataset comprises
over 101k hours of speech across six languages: English, Chinese, German,
French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a
dataset exceeding 216k hours, making it the largest open-source speech
generation dataset available. Extensive experiments demonstrate that Emilia
significantly outperforms traditional audiobook datasets in generating
spontaneous and human-like speech, showcasing superior performance in capturing
diverse speaker timbre and speaking styles of real-world human speech.
Furthermore, this work underscores the importance of scaling dataset size to
advance speech generation research and validates the effectiveness of Emilia
for both multilingual and crosslingual speech generation.Summary
AI-Generated Summary