E3 TTS : Synthèse vocale basée sur la diffusion, facile et de bout en bout

Résumé

Nous proposons Easy End-to-End Diffusion-based Text to Speech (E3 TTS), un modèle simple et efficace de synthèse vocale de bout en bout basé sur la diffusion. E3 TTS prend directement du texte brut en entrée et génère une forme d'onde audio à travers un processus de raffinement itératif. Contrairement à de nombreux travaux antérieurs, E3 TTS ne repose sur aucune représentation intermédiaire telle que des caractéristiques de spectrogramme ou des informations d'alignement. Au lieu de cela, E3 TTS modélise la structure temporelle de la forme d'onde via le processus de diffusion. Sans dépendre d'informations de conditionnement supplémentaires, E3 TTS peut supporter une structure latente flexible au sein de l'audio donné. Cela permet à E3 TTS de s'adapter facilement à des tâches zero-shot, telles que l'édition, sans nécessiter d'entraînement supplémentaire. Les expériences montrent qu'E3 TTS peut générer un audio de haute fidélité, approchant les performances d'un système de synthèse vocale neuronale de pointe. Des échantillons audio sont disponibles à l'adresse https://e3tts.github.io.

English

We propose Easy End-to-End Diffusion-based Text to Speech, a simple and efficient end-to-end text-to-speech model based on diffusion. E3 TTS directly takes plain text as input and generates an audio waveform through an iterative refinement process. Unlike many prior work, E3 TTS does not rely on any intermediate representations like spectrogram features or alignment information. Instead, E3 TTS models the temporal structure of the waveform through the diffusion process. Without relying on additional conditioning information, E3 TTS could support flexible latent structure within the given audio. This enables E3 TTS to be easily adapted for zero-shot tasks such as editing without any additional training. Experiments show that E3 TTS can generate high-fidelity audio, approaching the performance of a state-of-the-art neural TTS system. Audio samples are available at https://e3tts.github.io.

E3 TTS : Synthèse vocale basée sur la diffusion, facile et de bout en bout

E3 TTS: Easy End-to-End Diffusion-based Text to Speech

Résumé

Support