ChatPaper.aiChatPaper

E2 TTS: Text-to-Speech Extremamente Fácil Totalmente Não-Autoregressivo Zero-Shot

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

June 26, 2024
Autores: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI

Resumo

Este artigo apresenta o Embarrassingly Easy Text-to-Speech (E2 TTS), um sistema de texto para fala totalmente não autoregressivo de zero-shot que oferece naturalidade a nível humano e similaridade e inteligibilidade de alto nível de alto-falante. No framework E2 TTS, a entrada de texto é convertida em uma sequência de caracteres com tokens de preenchimento. O gerador de espectrograma mel baseado em correspondência de fluxo é então treinado com base na tarefa de preenchimento de áudio. Ao contrário de muitos trabalhos anteriores, não requer componentes adicionais (por exemplo, modelo de duração, grafema para fonema) ou técnicas complexas (por exemplo, busca de alinhamento monótono). Apesar de sua simplicidade, o E2 TTS alcança capacidades de TTS de zero-shot de ponta que são comparáveis ou superiores a trabalhos anteriores, incluindo Voicebox e NaturalSpeech 3. A simplicidade do E2 TTS também permite flexibilidade na representação de entrada. Propomos várias variantes do E2 TTS para melhorar a usabilidade durante a inferência. Consulte https://aka.ms/e2tts/ para ver amostras de demonstração.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully non-autoregressive zero-shot text-to-speech system that offers human-level naturalness and state-of-the-art speaker similarity and intelligibility. In the E2 TTS framework, the text input is converted into a character sequence with filler tokens. The flow-matching-based mel spectrogram generator is then trained based on the audio infilling task. Unlike many previous works, it does not require additional components (e.g., duration model, grapheme-to-phoneme) or complex techniques (e.g., monotonic alignment search). Despite its simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that are comparable to or surpass previous works, including Voicebox and NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the input representation. We propose several variants of E2 TTS to improve usability during inference. See https://aka.ms/e2tts/ for demo samples.
PDF234November 28, 2024