ChatPaper.aiChatPaper

E2 TTS: Крайне простая полностью некондиционная нулевая генерация речи

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

June 26, 2024
Авторы: Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda
cs.AI

Аннотация

В данной статье представлена технология Embarrassingly Easy Text-to-Speech (E2 TTS) - полностью нерекурсивная система синтеза речи из текста с нулевым шагом, обеспечивающая естественность на уровне человеческой идентичности диктора и понимаемости на уровне передовых технологий. В рамках E2 TTS входной текст преобразуется в последовательность символов с заполнителями. Генератор мел-спектрограмм на основе сопоставления потока затем обучается на основе задачи аудио-дополнения. В отличие от многих предыдущих работ, для E2 TTS не требуются дополнительные компоненты (например, модель длительности, графема-фонема) или сложные техники (например, поиск монотонного выравнивания). Несмотря на свою простоту, E2 TTS достигает передовых возможностей нулевого синтеза речи, сравнимых или превосходящих предыдущие работы, включая Voicebox и NaturalSpeech 3. Простота E2 TTS также обеспечивает гибкость в представлении входных данных. Мы предлагаем несколько вариантов E2 TTS для улучшения удобства использования в процессе вывода. Для демонстрационных образцов посетите https://aka.ms/e2tts/.
English
This paper introduces Embarrassingly Easy Text-to-Speech (E2 TTS), a fully non-autoregressive zero-shot text-to-speech system that offers human-level naturalness and state-of-the-art speaker similarity and intelligibility. In the E2 TTS framework, the text input is converted into a character sequence with filler tokens. The flow-matching-based mel spectrogram generator is then trained based on the audio infilling task. Unlike many previous works, it does not require additional components (e.g., duration model, grapheme-to-phoneme) or complex techniques (e.g., monotonic alignment search). Despite its simplicity, E2 TTS achieves state-of-the-art zero-shot TTS capabilities that are comparable to or surpass previous works, including Voicebox and NaturalSpeech 3. The simplicity of E2 TTS also allows for flexibility in the input representation. We propose several variants of E2 TTS to improve usability during inference. See https://aka.ms/e2tts/ for demo samples.

Summary

AI-Generated Summary

PDF234November 28, 2024