E3 TTS : Synthèse vocale basée sur la diffusion, facile et de bout en bout
E3 TTS: Easy End-to-End Diffusion-based Text to Speech
November 2, 2023
Auteurs: Yuan Gao, Nobuyuki Morioka, Yu Zhang, Nanxin Chen
cs.AI
Résumé
Nous proposons Easy End-to-End Diffusion-based Text to Speech (E3 TTS), un modèle simple et efficace de synthèse vocale de bout en bout basé sur la diffusion. E3 TTS prend directement du texte brut en entrée et génère une forme d'onde audio à travers un processus de raffinement itératif. Contrairement à de nombreux travaux antérieurs, E3 TTS ne repose sur aucune représentation intermédiaire telle que des caractéristiques de spectrogramme ou des informations d'alignement. Au lieu de cela, E3 TTS modélise la structure temporelle de la forme d'onde via le processus de diffusion. Sans dépendre d'informations de conditionnement supplémentaires, E3 TTS peut supporter une structure latente flexible au sein de l'audio donné. Cela permet à E3 TTS de s'adapter facilement à des tâches zero-shot, telles que l'édition, sans nécessiter d'entraînement supplémentaire. Les expériences montrent qu'E3 TTS peut générer un audio de haute fidélité, approchant les performances d'un système de synthèse vocale neuronale de pointe. Des échantillons audio sont disponibles à l'adresse https://e3tts.github.io.
English
We propose Easy End-to-End Diffusion-based Text to Speech, a simple and
efficient end-to-end text-to-speech model based on diffusion. E3 TTS directly
takes plain text as input and generates an audio waveform through an iterative
refinement process. Unlike many prior work, E3 TTS does not rely on any
intermediate representations like spectrogram features or alignment
information. Instead, E3 TTS models the temporal structure of the waveform
through the diffusion process. Without relying on additional conditioning
information, E3 TTS could support flexible latent structure within the given
audio. This enables E3 TTS to be easily adapted for zero-shot tasks such as
editing without any additional training. Experiments show that E3 TTS can
generate high-fidelity audio, approaching the performance of a state-of-the-art
neural TTS system. Audio samples are available at https://e3tts.github.io.