Pheme : Génération efficace et conversationnelle de la parole
Pheme: Efficient and Conversational Speech Generation
January 5, 2024
Auteurs: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
cs.AI
Résumé
Ces dernières années, la génération de parole a connu des progrès remarquables, atteignant désormais une capacité de génération en une seule étape souvent pratiquement indiscernable de la voix humaine réelle. L'intégration de ces avancées dans la génération de parole avec des modèles de langage de grande envergure pourrait révolutionner un large éventail d'applications. Cependant, certaines applications, telles que les systèmes conversationnels d'assistance, nécessitent des outils de génération de parole naturelle et conversationnelle qui fonctionnent également efficacement en temps réel. Les modèles actuels de pointe comme VALL-E et SoundStorm, alimentés par des codecs audio neuronaux hiérarchiques, nécessitent des composants neuronaux volumineux et des données d'entraînement extensives pour bien fonctionner. En revanche, MQTTS vise à construire des modèles de synthèse vocale conversationnelle plus compacts tout en exploitant des données de parole conversationnelle réelle à plus petite échelle. Cependant, sa nature autoregressive entraîne une latence d'inférence élevée, limitant ainsi son utilisation en temps réel. Afin de pallier les limitations actuelles des modèles de synthèse vocale de pointe tout en capitalisant sur leurs forces, nous introduisons dans ce travail la série de modèles Pheme qui 1) propose des modèles compacts mais performants, 2) permet une génération de parole parallèle, 3) produit une parole conversationnelle naturelle, et 4) peut être entraînée efficacement sur des données conversationnelles à plus petite échelle, réduisant les besoins en données de plus de 10 fois tout en égalant la qualité des modèles de synthèse vocale autoregressive. Nous montrons également qu'à travers une simple distillation enseignant-élève, nous pouvons obtenir des améliorations significatives de la qualité vocale pour des configurations à un seul locuteur sur la base de points de contrôle pré-entraînés de Pheme, en s'appuyant uniquement sur de la parole synthétique générée par des modèles enseignants beaucoup plus volumineux. Des échantillons audio et des modèles pré-entraînés sont disponibles en ligne.
English
In recent years, speech generation has seen remarkable progress, now
achieving one-shot generation capability that is often virtually
indistinguishable from real human voice. Integrating such advancements in
speech generation with large language models might revolutionize a wide range
of applications. However, certain applications, such as assistive
conversational systems, require natural and conversational speech generation
tools that also operate efficiently in real time. Current state-of-the-art
models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs,
require large neural components and extensive training data to work well. In
contrast, MQTTS aims to build more compact conversational TTS models while
capitalizing on smaller-scale real-life conversational speech data. However,
its autoregressive nature yields high inference latency and thus limits its
real-time usage. In order to mitigate the current limitations of the
state-of-the-art TTS models while capitalizing on their strengths, in this work
we introduce the Pheme model series that 1) offers compact yet high-performing
models, 2) allows for parallel speech generation of 3) natural conversational
speech, and 4) it can be trained efficiently on smaller-scale conversational
data, cutting data demands by more than 10x but still matching the quality of
the autoregressive TTS models. We also show that through simple teacher-student
distillation we can meet significant improvements in voice quality for
single-speaker setups on top of pretrained Pheme checkpoints, relying solely on
synthetic speech generated by much larger teacher models. Audio samples and
pretrained models are available online.