Pheme: Effiziente und konversationsorientierte Sprachgenerierung
Pheme: Efficient and Conversational Speech Generation
January 5, 2024
Autoren: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
cs.AI
Zusammenfassung
In den letzten Jahren hat die Sprachgenerierung bemerkenswerte Fortschritte erzielt und erreicht nun eine One-Shot-Generierungsfähigkeit, die oft kaum von echter menschlicher Stimme zu unterscheiden ist. Die Integration solcher Fortschritte in der Sprachgenerierung mit großen Sprachmodellen könnte eine Vielzahl von Anwendungen revolutionieren. Bestimmte Anwendungen, wie assistive Konversationssysteme, erfordern jedoch natürliche und konversationelle Sprachgenerierungswerkzeuge, die auch in Echtzeit effizient arbeiten. Aktuelle State-of-the-Art-Modelle wie VALL-E und SoundStorm, die durch hierarchische neuronale Audiocodecs angetrieben werden, benötigen große neuronale Komponenten und umfangreiche Trainingsdaten, um gut zu funktionieren. Im Gegensatz dazu zielt MQTTS darauf ab, kompaktere konversationelle TTS-Modelle zu entwickeln, während es kleinere reale Konversationssprachdaten nutzt. Allerdings führt seine autoregressive Natur zu hoher Inferenzlatenz und schränkt somit seine Echtzeitnutzung ein. Um die aktuellen Einschränkungen der State-of-the-Art-TTS-Modelle zu mildern und gleichzeitig ihre Stärken zu nutzen, führen wir in dieser Arbeit die Pheme-Modellserie ein, die 1) kompakte, aber leistungsstarke Modelle bietet, 2) parallele Sprachgenerierung ermöglicht, 3) natürliche Konversationssprache erzeugt und 4) effizient mit kleineren Konversationsdatensätzen trainiert werden kann, wodurch der Datenbedarf um mehr als das 10-fache reduziert wird, aber dennoch die Qualität der autoregressiven TTS-Modelle erreicht. Wir zeigen auch, dass wir durch einfache Teacher-Student-Distillation signifikante Verbesserungen in der Sprachqualität für Einzelsprecher-Setups auf Basis vortrainierter Pheme-Checkpoints erzielen können, wobei wir uns ausschließlich auf synthetische Sprache stützen, die von viel größeren Teacher-Modellen generiert wurde. Audio-Beispiele und vortrainierte Modelle sind online verfügbar.
English
In recent years, speech generation has seen remarkable progress, now
achieving one-shot generation capability that is often virtually
indistinguishable from real human voice. Integrating such advancements in
speech generation with large language models might revolutionize a wide range
of applications. However, certain applications, such as assistive
conversational systems, require natural and conversational speech generation
tools that also operate efficiently in real time. Current state-of-the-art
models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs,
require large neural components and extensive training data to work well. In
contrast, MQTTS aims to build more compact conversational TTS models while
capitalizing on smaller-scale real-life conversational speech data. However,
its autoregressive nature yields high inference latency and thus limits its
real-time usage. In order to mitigate the current limitations of the
state-of-the-art TTS models while capitalizing on their strengths, in this work
we introduce the Pheme model series that 1) offers compact yet high-performing
models, 2) allows for parallel speech generation of 3) natural conversational
speech, and 4) it can be trained efficiently on smaller-scale conversational
data, cutting data demands by more than 10x but still matching the quality of
the autoregressive TTS models. We also show that through simple teacher-student
distillation we can meet significant improvements in voice quality for
single-speaker setups on top of pretrained Pheme checkpoints, relying solely on
synthetic speech generated by much larger teacher models. Audio samples and
pretrained models are available online.