Mega-TTS 2: Zero-Shot Text-zu-Sprache mit Sprachprompts beliebiger Länge
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts
July 14, 2023
Autoren: Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Zusammenfassung
Zero-Shot Text-to-Speech zielt darauf ab, Stimmen mit unbekannten Sprachprompts zu synthetisieren. Frühere groß angelegte Multisprecher-TTS-Modelle haben dieses Ziel erfolgreich mit einer aufgenommenen Sprachprobe von weniger als 10 Sekunden erreicht. Die meisten dieser Modelle sind jedoch darauf ausgelegt, nur kurze Sprachprompts zu verwenden. Die begrenzten Informationen in kurzen Sprachprompts beeinträchtigen die Leistung bei der feingranularen Nachahmung der Identität erheblich. In diesem Artikel stellen wir Mega-TTS 2 vor, ein generisches Zero-Shot-Multisprecher-TTS-Modell, das in der Lage ist, Sprache für unbekannte Sprecher mit Prompts beliebiger Länge zu synthetisieren. Konkret haben wir 1) einen Multi-Referenz-Timbre-Encoder entwickelt, um Timbre-Informationen aus mehreren Referenzsprachen zu extrahieren; 2) ein Prosodie-Sprachmodell mit Sprachprompts beliebiger Länge trainiert; Mit diesen Entwürfen ist unser Modell für Prompts unterschiedlicher Länge geeignet, was die Obergrenze der Sprachqualität für Zero-Shot Text-to-Speech erweitert. Neben Prompts beliebiger Länge führen wir Prompts beliebiger Quelle ein, die die Wahrscheinlichkeiten aus mehreren P-LLM-Ausgaben nutzen, um ausdrucksstarke und kontrollierte Prosodie zu erzeugen. Darüber hinaus schlagen wir ein phonembasiertes autoregressives Dauer-Modell vor, um Fähigkeiten zum In-Context-Lernen in die Dauer-Modellierung einzuführen. Experimente zeigen, dass unsere Methode nicht nur identitätserhaltende Sprache mit einem kurzen Prompt eines unbekannten Sprechers synthetisieren kann, sondern auch eine verbesserte Leistung mit längeren Sprachprompts erzielt. Audiobeispiele finden Sie unter https://mega-tts.github.io/mega2_demo/.
English
Zero-shot text-to-speech aims at synthesizing voices with unseen speech
prompts. Previous large-scale multispeaker TTS models have successfully
achieved this goal with an enrolled recording within 10 seconds. However, most
of them are designed to utilize only short speech prompts. The limited
information in short speech prompts significantly hinders the performance of
fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a
generic zero-shot multispeaker TTS model that is capable of synthesizing speech
for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a
multi-reference timbre encoder to extract timbre information from multiple
reference speeches; 2) and train a prosody language model with arbitrary-length
speech prompts; With these designs, our model is suitable for prompts of
different lengths, which extends the upper bound of speech quality for
zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce
arbitrary-source prompts, which leverages the probabilities derived from
multiple P-LLM outputs to produce expressive and controlled prosody.
Furthermore, we propose a phoneme-level auto-regressive duration model to
introduce in-context learning capabilities to duration modeling. Experiments
demonstrate that our method could not only synthesize identity-preserving
speech with a short prompt of an unseen speaker but also achieve improved
performance with longer speech prompts. Audio samples can be found in
https://mega-tts.github.io/mega2_demo/.