ChatPaper.aiChatPaper

Mega-TTS: Null-Shot Text-zu-Sprache in großem Maßstab mit intrinsischer induktiver Verzerrung

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

June 6, 2023
Autoren: Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Zusammenfassung

Die Skalierung von Text-zu-Sprache (Text-to-Speech, TTS) auf einen großen und heterogenen Datensatz hat sich als äußerst effektiv erwiesen, um eine Generalisierung von Klangfarbe und Sprechstil zu erreichen, insbesondere im Kontext von Zero-Shot-TTS. Bisherige Arbeiten kodieren Sprache jedoch üblicherweise in latente Merkmale mithilfe von Audiocodecs und verwenden autoregressive Sprachmodelle oder Diffusionsmodelle zur Generierung, wodurch die intrinsische Natur von Sprache ignoriert wird und dies zu minderwertigen oder unkontrollierbaren Ergebnissen führen kann. Wir argumentieren, dass Sprache in mehrere Attribute (z. B. Inhalt, Klangfarbe, Prosodie und Phase) zerlegt werden kann und jedes dieser Attribute mit einem Modul mit geeigneten induktiven Verzerrungen modelliert werden sollte. Aus dieser Perspektive entwerfen wir sorgfältig ein neuartiges und umfangreiches Zero-Shot-TTS-System namens Mega-TTS, das mit groß angelegten, heterogenen Daten trainiert wird und verschiedene Attribute auf unterschiedliche Weise modelliert: 1) Anstelle von latenten Merkmalen, die durch Audiocodecs kodiert werden, wählen wir weiterhin Spektrogramme als Zwischenmerkmale, da sie Phase und andere Attribute sehr gut trennen. Die Phase kann durch einen GAN-basierten Vocoder angemessen konstruiert werden und muss nicht durch das Sprachmodell modelliert werden. 2) Wir modellieren die Klangfarbe mithilfe globaler Vektoren, da Klangfarbe ein globales Attribut ist, das sich langsam über die Zeit ändert. 3) Wir verwenden weiterhin ein VQGAN-basiertes akustisches Modell zur Generierung des Spektrogramms und ein latentes Code-Sprachmodell, um die Verteilung der Prosodie anzupassen, da sich die Prosodie innerhalb eines Satzes schnell ändert und Sprachmodelle sowohl lokale als auch langreichweitige Abhängigkeiten erfassen können. Wir skalieren Mega-TTS auf Multi-Domain-Datensätze mit 20.000 Stunden Sprachdaten und evaluieren seine Leistung bei unbekannten Sprechern. Experimentelle Ergebnisse zeigen, dass Mega-TTS state-of-the-art-TTS-Systeme in den Bereichen Zero-Shot-TTS, Sprachbearbeitung und cross-lingualem TTS übertrifft, mit überlegener Natürlichkeit, Robustheit und Sprecherähnlichkeit aufgrund der geeigneten induktiven Verzerrung jedes Moduls. Audiobeispiele sind verfügbar unter https://mega-tts.github.io/demo-page.
English
Scaling text-to-speech to a large and wild dataset has been proven to be highly effective in achieving timbre and speech style generalization, particularly in zero-shot TTS. However, previous works usually encode speech into latent using audio codec and use autoregressive language models or diffusion models to generate it, which ignores the intrinsic nature of speech and may lead to inferior or uncontrollable results. We argue that speech can be decomposed into several attributes (e.g., content, timbre, prosody, and phase) and each of them should be modeled using a module with appropriate inductive biases. From this perspective, we carefully design a novel and large zero-shot TTS system called Mega-TTS, which is trained with large-scale wild data and models different attributes in different ways: 1) Instead of using latent encoded by audio codec as the intermediate feature, we still choose spectrogram as it separates the phase and other attributes very well. Phase can be appropriately constructed by the GAN-based vocoder and does not need to be modeled by the language model. 2) We model the timbre using global vectors since timbre is a global attribute that changes slowly over time. 3) We further use a VQGAN-based acoustic model to generate the spectrogram and a latent code language model to fit the distribution of prosody, since prosody changes quickly over time in a sentence, and language models can capture both local and long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K hours of speech and evaluate its performance on unseen speakers. Experimental results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior naturalness, robustness, and speaker similarity due to the proper inductive bias of each module. Audio samples are available at https://mega-tts.github.io/demo-page.
PDF54December 15, 2024