Síntesis de habla continua utilizando Difusión Latente por Token.
Continuous Speech Synthesis using per-token Latent Diffusion
October 21, 2024
Autores: Arnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel
cs.AI
Resumen
El éxito de los modelos transformadores autoregresivos con tokens discretos ha inspirado enfoques basados en cuantificación para modalidades continuas, aunque a menudo limitan la calidad de la reconstrucción. Por lo tanto, presentamos SALAD, un modelo de difusión latente por token para conversión de texto a voz sin entrenamiento previo, que opera con representaciones continuas. SALAD se basa en la cabeza de difusión expresiva propuesta recientemente para generación de imágenes, y la extiende para producir salidas de longitud variable. Nuestro enfoque utiliza tokens semánticos para proporcionar información contextual y determinar la condición de detención. Proponemos tres variantes continuas para nuestro método, ampliando técnicas populares de síntesis de voz discreta. Además, implementamos líneas de base discretas para cada variante y realizamos un análisis comparativo de técnicas de modelado de voz discretas versus continuas. Nuestros resultados demuestran que tanto los enfoques continuos como los discretos son altamente competentes, y que SALAD logra una puntuación de inteligibilidad superior mientras obtiene calidad de voz y similitud de locutor al nivel del audio de referencia.
English
The success of autoregressive transformer models with discrete tokens has
inspired quantization-based approaches for continuous modalities, though these
often limit reconstruction quality. We therefore introduce SALAD, a per-token
latent diffusion model for zero-shot text-to-speech, that operates on
continuous representations. SALAD builds upon the recently proposed expressive
diffusion head for image generation, and extends it to generate variable-length
outputs. Our approach utilizes semantic tokens for providing contextual
information and determining the stopping condition. We suggest three continuous
variants for our method, extending popular discrete speech synthesis
techniques. Additionally, we implement discrete baselines for each variant and
conduct a comparative analysis of discrete versus continuous speech modeling
techniques. Our results demonstrate that both continuous and discrete
approaches are highly competent, and that SALAD achieves a superior
intelligibility score while obtaining speech quality and speaker similarity on
par with the ground-truth audio.Summary
AI-Generated Summary