LibriTTS-R: Ein restauriertes Mehrsprecher-Text-zu-Sprache-Korpus
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus
May 30, 2023
Autoren: Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Michiel Bacchiani, Yu Zhang, Wei Han, Ankur Bapna
cs.AI
Zusammenfassung
Dieses Papier stellt ein neues Sprachdatenset namens „LibriTTS-R“ vor, das für die Text-zu-Sprache-Synthese (TTS) entwickelt wurde. Es wurde durch die Anwendung von Sprachrestaurierung auf das LibriTTS-Korpus erstellt, das 585 Stunden Sprachdaten mit einer Abtastrate von 24 kHz von 2.456 Sprechern sowie die entsprechenden Texte umfasst. Die einzelnen Samples in LibriTTS-R sind identisch zu denen in LibriTTS, wobei lediglich die Klangqualität verbessert wurde. Experimentelle Ergebnisse zeigen, dass die Ground-Truth-Samples in LibriTTS-R eine deutlich verbesserte Klangqualität im Vergleich zu denen in LibriTTS aufweisen. Darüber hinaus erreichte ein neuronales End-to-End-TTS-System, das mit LibriTTS-R trainiert wurde, eine Sprachqualität, die der der Ground-Truth-Samples entspricht. Das Korpus steht kostenlos zum Download unter http://www.openslr.org/141/ zur Verfügung.
English
This paper introduces a new speech dataset called ``LibriTTS-R'' designed for
text-to-speech (TTS) use. It is derived by applying speech restoration to the
LibriTTS corpus, which consists of 585 hours of speech data at 24 kHz sampling
rate from 2,456 speakers and the corresponding texts. The constituent samples
of LibriTTS-R are identical to those of LibriTTS, with only the sound quality
improved. Experimental results show that the LibriTTS-R ground-truth samples
showed significantly improved sound quality compared to those in LibriTTS. In
addition, neural end-to-end TTS trained with LibriTTS-R achieved speech
naturalness on par with that of the ground-truth samples. The corpus is freely
available for download from http://www.openslr.org/141/.