LibriTTS-R: Een Gerestaureerd Multi-Spreker Tekst-naar-Spraak Corpus
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus
May 30, 2023
Auteurs: Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Michiel Bacchiani, Yu Zhang, Wei Han, Ankur Bapna
cs.AI
Samenvatting
Dit artikel introduceert een nieuwe spraakdataset genaamd ``LibriTTS-R'', ontworpen voor tekst-naar-spraak (TTS) toepassingen. De dataset is afgeleid door spraakrestauratie toe te passen op het LibriTTS-corpus, dat bestaat uit 585 uur aan spraakdata met een samplefrequentie van 24 kHz van 2.456 sprekers en de bijbehorende teksten. De samenstellende samples van LibriTTS-R zijn identiek aan die van LibriTTS, waarbij alleen de geluidskwaliteit is verbeterd. Experimentele resultaten tonen aan dat de ground-truth samples van LibriTTS-R een aanzienlijk verbeterde geluidskwaliteit vertonen in vergelijking met die in LibriTTS. Daarnaast bereikte neurale end-to-end TTS, getraind met LibriTTS-R, een spraaknatuurlijkheid die vergelijkbaar is met die van de ground-truth samples. Het corpus is vrij beschikbaar voor download via http://www.openslr.org/141/.
English
This paper introduces a new speech dataset called ``LibriTTS-R'' designed for
text-to-speech (TTS) use. It is derived by applying speech restoration to the
LibriTTS corpus, which consists of 585 hours of speech data at 24 kHz sampling
rate from 2,456 speakers and the corresponding texts. The constituent samples
of LibriTTS-R are identical to those of LibriTTS, with only the sound quality
improved. Experimental results show that the LibriTTS-R ground-truth samples
showed significantly improved sound quality compared to those in LibriTTS. In
addition, neural end-to-end TTS trained with LibriTTS-R achieved speech
naturalness on par with that of the ground-truth samples. The corpus is freely
available for download from http://www.openslr.org/141/.