ChatPaper.aiChatPaper

Эмилия: крупномасштабный, обширный, многоязычный и разнообразный набор данных для генерации речи

Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation

January 27, 2025
Авторы: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
cs.AI

Аннотация

Недавние достижения в области генерации речи были обусловлены обширными наборами данных для обучения. Однако текущие модели не могут полностью передать спонтанность и изменчивость, присущие реальной человеческой речи, из-за своей зависимости от аудиокнижных наборов данных, ограниченных формальными стилями чтения вслух. Для устранения этого разрыва мы представляем Emilia-Pipe, открытый предварительный конвейер для извлечения высококачественных данных для обучения из ценных, но малоисследованных данных из реального мира, которые захватывают спонтанную человеческую речь в реальных контекстах. Используя Emilia-Pipe, мы создаем Emilia, первый многоязычный набор данных для генерации речи, полученный из данных о речи в реальном мире. Этот набор данных включает более 101 тыс. часов речи на шести языках: английском, китайском, немецком, французском, японском и корейском. Кроме того, мы расширяем Emilia до Emilia-Large, набора данных, превышающего 216 тыс. часов, что делает его самым крупным открытым набором данных для генерации речи. Обширные эксперименты показывают, что Emilia значительно превосходит традиционные аудиокнижные наборы данных в генерации спонтанной и похожей на человека речи, демонстрируя превосходную производительность в передаче разнообразного тембра и стилей речи дикторов реальной человеческой речи. Кроме того, данная работа подчеркивает важность увеличения размера набора данных для продвижения исследований по генерации речи и подтверждает эффективность Emilia как для многоязычной, так и для кросс-языковой генерации речи.
English
Recent advancements in speech generation have been driven by the large-scale training datasets. However, current models fall short of capturing the spontaneity and variability inherent in real-world human speech, due to their reliance on audiobook datasets limited to formal read-aloud speech styles. To bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing pipeline to extract high-quality training data from valuable yet underexplored in-the-wild data that capture spontaneous human speech in real-world contexts. By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech generation dataset derived from in-the-wild speech data. This dataset comprises over 101k hours of speech across six languages: English, Chinese, German, French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a dataset exceeding 216k hours, making it the largest open-source speech generation dataset available. Extensive experiments demonstrate that Emilia significantly outperforms traditional audiobook datasets in generating spontaneous and human-like speech, showcasing superior performance in capturing diverse speaker timbre and speaking styles of real-world human speech. Furthermore, this work underscores the importance of scaling dataset size to advance speech generation research and validates the effectiveness of Emilia for both multilingual and crosslingual speech generation.

Summary

AI-Generated Summary

PDF172January 28, 2025