ChatPaper.aiChatPaper

E2 TTS: 놀라울 정도로 쉬운 완전 비자기회귀형 제로샷 텍스트 음성 변환

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

June 26, 2024
저자: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI

초록

본 논문은 인간 수준의 자연스러움과 최첨단 화자 유사성 및 명료성을 제공하는 완전 비자기회귀적 제로샷 텍스트-투-스피치 시스템인 Embarrassingly Easy Text-to-Speech (E2 TTS)를 소개합니다. E2 TTS 프레임워크에서는 텍스트 입력이 필러 토큰이 포함된 문자 시퀀스로 변환됩니다. 이후 플로우 매칭 기반의 멜 스펙트로그램 생성기가 오디오 채우기 작업을 기반으로 학습됩니다. 많은 기존 연구와 달리, 이 시스템은 추가 구성 요소(예: 지속 시간 모델, 그래핀-투-포넴)나 복잡한 기술(예: 단조 정렬 탐색)을 필요로 하지 않습니다. 단순함에도 불구하고, E2 TTS는 Voicebox와 NaturalSpeech 3을 포함한 기존 연구를 능가하거나 필적하는 최첨단 제로샷 TTS 성능을 달성합니다. E2 TTS의 단순성은 입력 표현에서의 유연성도 가능하게 합니다. 우리는 추론 과정에서의 사용성을 개선하기 위해 E2 TTS의 여러 변형을 제안합니다. 데모 샘플은 https://aka.ms/e2tts/에서 확인할 수 있습니다.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully non-autoregressive zero-shot text-to-speech system that offers human-level naturalness and state-of-the-art speaker similarity and intelligibility. In the E2 TTS framework, the text input is converted into a character sequence with filler tokens. The flow-matching-based mel spectrogram generator is then trained based on the audio infilling task. Unlike many previous works, it does not require additional components (e.g., duration model, grapheme-to-phoneme) or complex techniques (e.g., monotonic alignment search). Despite its simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that are comparable to or surpass previous works, including Voicebox and NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the input representation. We propose several variants of E2 TTS to improve usability during inference. See https://aka.ms/e2tts/ for demo samples.

Summary

AI-Generated Summary

PDF234November 28, 2024