LibriTTS-R: Un Corpus Restaurado de Conversión de Texto a Voz con Múltiples Hablantes

Resumen

Este artículo presenta un nuevo conjunto de datos de voz llamado ``LibriTTS-R'' diseñado para su uso en síntesis de voz (TTS, por sus siglas en inglés). Se deriva aplicando técnicas de restauración de voz al corpus LibriTTS, que consta de 585 horas de datos de voz muestreados a 24 kHz provenientes de 2,456 hablantes y sus textos correspondientes. Las muestras que componen LibriTTS-R son idénticas a las de LibriTTS, con la única diferencia de que la calidad del sonido ha sido mejorada. Los resultados experimentales muestran que las muestras de referencia de LibriTTS-R presentaron una calidad de sonido significativamente mejorada en comparación con las de LibriTTS. Además, los sistemas de TTS neuronal de extremo a extremo entrenados con LibriTTS-R lograron una naturalidad del habla comparable a la de las muestras de referencia. El corpus está disponible gratuitamente para su descarga en http://www.openslr.org/141/.

English

This paper introduces a new speech dataset called ``LibriTTS-R'' designed for text-to-speech (TTS) use. It is derived by applying speech restoration to the LibriTTS corpus, which consists of 585 hours of speech data at 24 kHz sampling rate from 2,456 speakers and the corresponding texts. The constituent samples of LibriTTS-R are identical to those of LibriTTS, with only the sound quality improved. Experimental results show that the LibriTTS-R ground-truth samples showed significantly improved sound quality compared to those in LibriTTS. In addition, neural end-to-end TTS trained with LibriTTS-R achieved speech naturalness on par with that of the ground-truth samples. The corpus is freely available for download from http://www.openslr.org/141/.

LibriTTS-R: Un Corpus Restaurado de Conversión de Texto a Voz con Múltiples Hablantes

LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus

Resumen

Support