E2 TTS: Sintesi Vocale Completamente Non Autoregressiva a Zero-Shot Sorprendentemente Semplice
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS
June 26, 2024
Autori: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI
Abstract
Questo articolo presenta Embarrassingly Easy Text-to-Speech (E2 TTS), un sistema di sintesi vocale completamente non autoregressivo e zero-shot che offre una naturalezza di livello umano, una somiglianza del parlante e un'intelligibilità all'avanguardia. Nel framework E2 TTS, l'input testuale viene convertito in una sequenza di caratteri con token di riempimento. Il generatore di spettrogrammi mel basato su flow-matching viene quindi addestrato basandosi sul compito di riempimento audio. A differenza di molti lavori precedenti, non richiede componenti aggiuntivi (ad esempio, un modello di durata, grapheme-to-phoneme) o tecniche complesse (ad esempio, ricerca di allineamento monotono). Nonostante la sua semplicità, E2 TTS raggiunge capacità zero-shot TTS all'avanguardia che sono comparabili o superiori ai lavori precedenti, inclusi Voicebox e NaturalSpeech 3. La semplicità di E2 TTS consente anche flessibilità nella rappresentazione dell'input. Proponiamo diverse varianti di E2 TTS per migliorare l'usabilità durante l'inferenza. Vedi https://aka.ms/e2tts/ per esempi dimostrativi.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully
non-autoregressive zero-shot text-to-speech system that offers human-level
naturalness and state-of-the-art speaker similarity and intelligibility. In the
E2 TTS framework, the text input is converted into a character sequence with
filler tokens. The flow-matching-based mel spectrogram generator is then
trained based on the audio infilling task. Unlike many previous works, it does
not require additional components (e.g., duration model, grapheme-to-phoneme)
or complex techniques (e.g., monotonic alignment search). Despite its
simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that
are comparable to or surpass previous works, including Voicebox and
NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the
input representation. We propose several variants of E2 TTS to improve
usability during inference. See https://aka.ms/e2tts/ for demo samples.