LibriTTS-R: Un Corpus Restaurado de Conversión de Texto a Voz con Múltiples Hablantes
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus
May 30, 2023
Autores: Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Michiel Bacchiani, Yu Zhang, Wei Han, Ankur Bapna
cs.AI
Resumen
Este artículo presenta un nuevo conjunto de datos de voz llamado ``LibriTTS-R'' diseñado para su uso en síntesis de voz (TTS, por sus siglas en inglés). Se deriva aplicando técnicas de restauración de voz al corpus LibriTTS, que consta de 585 horas de datos de voz muestreados a 24 kHz provenientes de 2,456 hablantes y sus textos correspondientes. Las muestras que componen LibriTTS-R son idénticas a las de LibriTTS, con la única diferencia de que la calidad del sonido ha sido mejorada. Los resultados experimentales muestran que las muestras de referencia de LibriTTS-R presentaron una calidad de sonido significativamente mejorada en comparación con las de LibriTTS. Además, los sistemas de TTS neuronal de extremo a extremo entrenados con LibriTTS-R lograron una naturalidad del habla comparable a la de las muestras de referencia. El corpus está disponible gratuitamente para su descarga en http://www.openslr.org/141/.
English
This paper introduces a new speech dataset called ``LibriTTS-R'' designed for
text-to-speech (TTS) use. It is derived by applying speech restoration to the
LibriTTS corpus, which consists of 585 hours of speech data at 24 kHz sampling
rate from 2,456 speakers and the corresponding texts. The constituent samples
of LibriTTS-R are identical to those of LibriTTS, with only the sound quality
improved. Experimental results show that the LibriTTS-R ground-truth samples
showed significantly improved sound quality compared to those in LibriTTS. In
addition, neural end-to-end TTS trained with LibriTTS-R achieved speech
naturalness on par with that of the ground-truth samples. The corpus is freely
available for download from http://www.openslr.org/141/.