ChatPaper.aiChatPaper

E2 TTS : Synthèse vocale entièrement non autorégressive et zero-shot d'une simplicité déconcertante

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

June 26, 2024
Auteurs: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI

Résumé

Cet article présente Embarrassingly Easy Text-to-Speech (E2 TTS), un système de synthèse vocale entièrement non-autorégressif et zero-shot qui offre un niveau de naturalité comparable à celui d'un locuteur humain, ainsi qu'une similarité de voix et une intelligibilité de pointe. Dans le cadre d'E2 TTS, le texte d'entrée est converti en une séquence de caractères incluant des tokens de remplissage. Le générateur de spectrogrammes mel basé sur le flow matching est ensuite entraîné sur la tâche de remplissage audio. Contrairement à de nombreux travaux précédents, il ne nécessite pas de composants supplémentaires (par exemple, un modèle de durée, un convertisseur graphème-phonème) ni de techniques complexes (par exemple, la recherche d'alignement monotone). Malgré sa simplicité, E2 TTS atteint des performances de pointe en synthèse vocale zero-shot, comparables ou supérieures à celles des travaux précédents, notamment Voicebox et NaturalSpeech 3. La simplicité d'E2 TTS permet également une grande flexibilité dans la représentation des entrées. Nous proposons plusieurs variantes d'E2 TTS pour améliorer l'utilisabilité lors de l'inférence. Consultez https://aka.ms/e2tts/ pour des exemples de démonstration.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully non-autoregressive zero-shot text-to-speech system that offers human-level naturalness and state-of-the-art speaker similarity and intelligibility. In the E2 TTS framework, the text input is converted into a character sequence with filler tokens. The flow-matching-based mel spectrogram generator is then trained based on the audio infilling task. Unlike many previous works, it does not require additional components (e.g., duration model, grapheme-to-phoneme) or complex techniques (e.g., monotonic alignment search). Despite its simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that are comparable to or surpass previous works, including Voicebox and NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the input representation. We propose several variants of E2 TTS to improve usability during inference. See https://aka.ms/e2tts/ for demo samples.

Summary

AI-Generated Summary

PDF234November 28, 2024