E2 TTS: Peinlich einfach vollständig nicht-autoregressives Zero-Shot TTS

Zusammenfassung

Dieses Paper stellt Embarrassingly Easy Text-to-Speech (E2 TTS) vor, ein vollständig nicht-autoregressives Zero-Shot Text-to-Speech-System, das menschenähnliche Natürlichkeit sowie modernste Sprecherähnlichkeit und Verständlichkeit bietet. Im E2 TTS-Framework wird die Texteingabe in eine Zeichenfolge mit Füllertokens umgewandelt. Der auf Flussanpassung basierende Mel-Spektrum-Generator wird dann anhand der Audio-Auffüllungsaufgabe trainiert. Im Gegensatz zu vielen früheren Arbeiten erfordert es keine zusätzlichen Komponenten (z. B. Dauermodell, Graphem-Phonem) oder komplexe Techniken (z. B. monotonische Ausrichtungssuche). Trotz seiner Einfachheit erreicht E2 TTS modernste Zero-Shot TTS-Fähigkeiten, die mit früheren Arbeiten wie Voicebox und NaturalSpeech 3 vergleichbar oder sogar übertroffen sind. Die Einfachheit von E2 TTS ermöglicht auch Flexibilität bei der Eingaberepräsentation. Wir schlagen mehrere Varianten von E2 TTS vor, um die Benutzerfreundlichkeit während der Inferenz zu verbessern. Siehe https://aka.ms/e2tts/ für Demo-Beispiele.

English

This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully non-autoregressive zero-shot text-to-speech system that offers human-level naturalness and state-of-the-art speaker similarity and intelligibility. In the E2 TTS framework, the text input is converted into a character sequence with filler tokens. The flow-matching-based mel spectrogram generator is then trained based on the audio infilling task. Unlike many previous works, it does not require additional components (e.g., duration model, grapheme-to-phoneme) or complex techniques (e.g., monotonic alignment search). Despite its simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that are comparable to or surpass previous works, including Voicebox and NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the input representation. We propose several variants of E2 TTS to improve usability during inference. See https://aka.ms/e2tts/ for demo samples.