ChatPaper.aiChatPaper

E2 TTS: Verbazingwekkend Eenvoudige Volledig Niet-Autoregressieve Zero-Shot TTS

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

June 26, 2024
Auteurs: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI

Samenvatting

Dit artikel introduceert Embarrassingly Easy Text-to-Speech (E2 TTS), een volledig niet-autoregressief zero-shot tekst-naar-spraaksysteem dat menselijke natuurlijkheid biedt en state-of-the-art sprekersgelijkenis en verstaanbaarheid. In het E2 TTS-framework wordt de tekstinvoer omgezet in een tekenreeks met vul-tokens. De op flow-matching gebaseerde mel-spectrogramgenerator wordt vervolgens getraind op basis van de audio-invultaak. In tegenstelling tot veel eerdere werken vereist het geen extra componenten (bijv. duurmodel, grafeem-naar-foneem) of complexe technieken (bijv. monotone uitlijningszoektocht). Ondanks zijn eenvoud bereikt E2 TTS state-of-the-art zero-shot TTS-mogelijkheden die vergelijkbaar zijn met of beter dan eerdere werken, waaronder Voicebox en NaturalSpeech 3. De eenvoud van E2 TTS maakt ook flexibiliteit mogelijk in de invoerrepresentatie. We stellen verschillende varianten van E2 TTS voor om de bruikbaarheid tijdens inferentie te verbeteren. Zie https://aka.ms/e2tts/ voor demosamples.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully non-autoregressive zero-shot text-to-speech system that offers human-level naturalness and state-of-the-art speaker similarity and intelligibility. In the E2 TTS framework, the text input is converted into a character sequence with filler tokens. The flow-matching-based mel spectrogram generator is then trained based on the audio infilling task. Unlike many previous works, it does not require additional components (e.g., duration model, grapheme-to-phoneme) or complex techniques (e.g., monotonic alignment search). Despite its simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that are comparable to or surpass previous works, including Voicebox and NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the input representation. We propose several variants of E2 TTS to improve usability during inference. See https://aka.ms/e2tts/ for demo samples.
PDF224February 8, 2026