E2 TTS: Síntesis de Voz Totalmente No Autoregresiva de Cero-Shot Sorprendentemente Sencilla
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS
June 26, 2024
Autores: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI
Resumen
Este artículo presenta Embarrassingly Easy Text-to-Speech (E2 TTS), un sistema de conversión de texto a voz completamente no autoregresivo y de cero disparos que ofrece una naturalidad a nivel humano, así como una similitud de hablante e inteligibilidad de vanguardia. En el marco de E2 TTS, la entrada de texto se convierte en una secuencia de caracteres con tokens de relleno. Luego, el generador de espectrogramas mel basado en emparejamiento de flujo se entrena utilizando la tarea de relleno de audio. A diferencia de muchos trabajos anteriores, no requiere componentes adicionales (por ejemplo, un modelo de duración, grafema a fonema) ni técnicas complejas (por ejemplo, búsqueda de alineación monótona). A pesar de su simplicidad, E2 TTS logra capacidades de conversión de texto a voz de cero disparos de vanguardia que son comparables o superan trabajos anteriores, incluyendo Voicebox y NaturalSpeech 3. La simplicidad de E2 TTS también permite flexibilidad en la representación de la entrada. Proponemos varias variantes de E2 TTS para mejorar la usabilidad durante la inferencia. Consulte https://aka.ms/e2tts/ para ver muestras de demostración.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully
non-autoregressive zero-shot text-to-speech system that offers human-level
naturalness and state-of-the-art speaker similarity and intelligibility. In the
E2 TTS framework, the text input is converted into a character sequence with
filler tokens. The flow-matching-based mel spectrogram generator is then
trained based on the audio infilling task. Unlike many previous works, it does
not require additional components (e.g., duration model, grapheme-to-phoneme)
or complex techniques (e.g., monotonic alignment search). Despite its
simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that
are comparable to or surpass previous works, including Voicebox and
NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the
input representation. We propose several variants of E2 TTS to improve
usability during inference. See https://aka.ms/e2tts/ for demo samples.Summary
AI-Generated Summary