E2 TTS: Peinlich einfach vollständig nicht-autoregressives Zero-Shot TTS
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS
June 26, 2024
Autoren: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI
Zusammenfassung
Dieses Paper stellt Embarrassingly Easy Text-to-Speech (E2 TTS) vor, ein vollständig nicht-autoregressives Zero-Shot Text-to-Speech-System, das menschenähnliche Natürlichkeit sowie modernste Sprecherähnlichkeit und Verständlichkeit bietet. Im E2 TTS-Framework wird die Texteingabe in eine Zeichenfolge mit Füllertokens umgewandelt. Der auf Flussanpassung basierende Mel-Spektrum-Generator wird dann anhand der Audio-Auffüllungsaufgabe trainiert. Im Gegensatz zu vielen früheren Arbeiten erfordert es keine zusätzlichen Komponenten (z. B. Dauermodell, Graphem-Phonem) oder komplexe Techniken (z. B. monotonische Ausrichtungssuche). Trotz seiner Einfachheit erreicht E2 TTS modernste Zero-Shot TTS-Fähigkeiten, die mit früheren Arbeiten wie Voicebox und NaturalSpeech 3 vergleichbar oder sogar übertroffen sind. Die Einfachheit von E2 TTS ermöglicht auch Flexibilität bei der Eingaberepräsentation. Wir schlagen mehrere Varianten von E2 TTS vor, um die Benutzerfreundlichkeit während der Inferenz zu verbessern. Siehe https://aka.ms/e2tts/ für Demo-Beispiele.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully
non-autoregressive zero-shot text-to-speech system that offers human-level
naturalness and state-of-the-art speaker similarity and intelligibility. In the
E2 TTS framework, the text input is converted into a character sequence with
filler tokens. The flow-matching-based mel spectrogram generator is then
trained based on the audio infilling task. Unlike many previous works, it does
not require additional components (e.g., duration model, grapheme-to-phoneme)
or complex techniques (e.g., monotonic alignment search). Despite its
simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that
are comparable to or surpass previous works, including Voicebox and
NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the
input representation. We propose several variants of E2 TTS to improve
usability during inference. See https://aka.ms/e2tts/ for demo samples.Summary
AI-Generated Summary