ChatPaper.aiChatPaper

LibriTTS-R: Een Gerestaureerd Multi-Spreker Tekst-naar-Spraak Corpus

LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus

May 30, 2023
Auteurs: Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Michiel Bacchiani, Yu Zhang, Wei Han, Ankur Bapna
cs.AI

Samenvatting

Dit artikel introduceert een nieuwe spraakdataset genaamd ``LibriTTS-R'', ontworpen voor tekst-naar-spraak (TTS) toepassingen. De dataset is afgeleid door spraakrestauratie toe te passen op het LibriTTS-corpus, dat bestaat uit 585 uur aan spraakdata met een samplefrequentie van 24 kHz van 2.456 sprekers en de bijbehorende teksten. De samenstellende samples van LibriTTS-R zijn identiek aan die van LibriTTS, waarbij alleen de geluidskwaliteit is verbeterd. Experimentele resultaten tonen aan dat de ground-truth samples van LibriTTS-R een aanzienlijk verbeterde geluidskwaliteit vertonen in vergelijking met die in LibriTTS. Daarnaast bereikte neurale end-to-end TTS, getraind met LibriTTS-R, een spraaknatuurlijkheid die vergelijkbaar is met die van de ground-truth samples. Het corpus is vrij beschikbaar voor download via http://www.openslr.org/141/.
English
This paper introduces a new speech dataset called ``LibriTTS-R'' designed for text-to-speech (TTS) use. It is derived by applying speech restoration to the LibriTTS corpus, which consists of 585 hours of speech data at 24 kHz sampling rate from 2,456 speakers and the corresponding texts. The constituent samples of LibriTTS-R are identical to those of LibriTTS, with only the sound quality improved. Experimental results show that the LibriTTS-R ground-truth samples showed significantly improved sound quality compared to those in LibriTTS. In addition, neural end-to-end TTS trained with LibriTTS-R achieved speech naturalness on par with that of the ground-truth samples. The corpus is freely available for download from http://www.openslr.org/141/.
PDF42December 15, 2024