ChatPaper.aiChatPaper

Pheme: Efficiënte en Conversatiegerichte Spraakgeneratie

Pheme: Efficient and Conversational Speech Generation

January 5, 2024
Auteurs: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
cs.AI

Samenvatting

De afgelopen jaren heeft spraakgeneratie aanzienlijke vooruitgang geboekt, waarbij nu one-shot-generatie mogelijk is die vaak vrijwel niet te onderscheiden is van echte menselijke stemmen. Het integreren van dergelijke ontwikkelingen in spraakgeneratie met grote taalmodellen zou een breed scala aan toepassingen kunnen revolutioneren. Bepaalde toepassingen, zoals ondersteunende conversatiesystemen, vereisen echter natuurlijke en conversatiegerichte spraakgeneratietools die ook efficiënt in realtime kunnen werken. Huidige state-of-the-art modellen zoals VALL-E en SoundStorm, aangedreven door hiërarchische neurale audiocodecs, vereisen grote neurale componenten en uitgebreide trainingsdata om goed te functioneren. Daarentegen streeft MQTTS ernaar om compactere conversatiegerichte TTS-modellen te bouwen, terwijl het gebruik maakt van kleinschalige real-life conversatiespraakdata. Het autoregressieve karakter ervan resulteert echter in een hoge inferentielatentie, wat het realtime gebruik beperkt. Om de huidige beperkingen van state-of-the-art TTS-modellen te verminderen en tegelijkertijd hun sterke punten te benutten, introduceren we in dit werk de Pheme-modelreeks die 1) compacte maar hoogpresterende modellen biedt, 2) parallelle spraakgeneratie mogelijk maakt van 3) natuurlijke conversatiespraak, en 4) efficiënt getraind kan worden op kleinschalige conversatiedata, waardoor de databehoefte met meer dan 10x wordt verminderd, maar toch de kwaliteit van autoregressieve TTS-modellen evenaart. We laten ook zien dat we door eenvoudige teacher-student-distillatie aanzienlijke verbeteringen in stemkwaliteit kunnen bereiken voor single-speaker-opstellingen op basis van vooraf getrainde Pheme-checkpoints, waarbij uitsluitend wordt vertrouwd op synthetische spraak gegenereerd door veel grotere teacher-modellen. Audiovoorbeelden en vooraf getrainde modellen zijn online beschikbaar.
English
In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech generation with large language models might revolutionize a wide range of applications. However, certain applications, such as assistive conversational systems, require natural and conversational speech generation tools that also operate efficiently in real time. Current state-of-the-art models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs, require large neural components and extensive training data to work well. In contrast, MQTTS aims to build more compact conversational TTS models while capitalizing on smaller-scale real-life conversational speech data. However, its autoregressive nature yields high inference latency and thus limits its real-time usage. In order to mitigate the current limitations of the state-of-the-art TTS models while capitalizing on their strengths, in this work we introduce the Pheme model series that 1) offers compact yet high-performing models, 2) allows for parallel speech generation of 3) natural conversational speech, and 4) it can be trained efficiently on smaller-scale conversational data, cutting data demands by more than 10x but still matching the quality of the autoregressive TTS models. We also show that through simple teacher-student distillation we can meet significant improvements in voice quality for single-speaker setups on top of pretrained Pheme checkpoints, relying solely on synthetic speech generated by much larger teacher models. Audio samples and pretrained models are available online.
PDF182December 15, 2024