ChatPaper.aiChatPaper

Síntese Contínua de Fala usando Difusão Latente por Token

Continuous Speech Synthesis using per-token Latent Diffusion

October 21, 2024
Autores: Arnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel
cs.AI

Resumo

O sucesso dos modelos autoregressivos de transformer com tokens discretos inspirou abordagens baseadas em quantização para modalidades contínuas, embora frequentemente limitem a qualidade de reconstrução. Portanto, introduzimos o SALAD, um modelo de difusão latente por token para conversão de texto em fala sem necessidade de treinamento, que opera em representações contínuas. O SALAD se baseia na cabeça de difusão expressiva proposta recentemente para geração de imagens e a estende para gerar saídas de comprimentos variáveis. Nossa abordagem utiliza tokens semânticos para fornecer informações contextuais e determinar a condição de parada. Propomos três variantes contínuas para nosso método, ampliando técnicas populares de síntese de fala discreta. Além disso, implementamos baselines discretos para cada variante e realizamos uma análise comparativa das técnicas de modelagem de fala discreta versus contínua. Nossos resultados demonstram que abordagens contínuas e discretas são altamente competentes, e que o SALAD alcança uma pontuação de inteligibilidade superior, mantendo a qualidade de fala e a similaridade de locutor em nível com o áudio real.
English
The success of autoregressive transformer models with discrete tokens has inspired quantization-based approaches for continuous modalities, though these often limit reconstruction quality. We therefore introduce SALAD, a per-token latent diffusion model for zero-shot text-to-speech, that operates on continuous representations. SALAD builds upon the recently proposed expressive diffusion head for image generation, and extends it to generate variable-length outputs. Our approach utilizes semantic tokens for providing contextual information and determining the stopping condition. We suggest three continuous variants for our method, extending popular discrete speech synthesis techniques. Additionally, we implement discrete baselines for each variant and conduct a comparative analysis of discrete versus continuous speech modeling techniques. Our results demonstrate that both continuous and discrete approaches are highly competent, and that SALAD achieves a superior intelligibility score while obtaining speech quality and speaker similarity on par with the ground-truth audio.

Summary

AI-Generated Summary

PDF303November 16, 2024