Синтез непрерывной речи с использованием латентной диффузии на уровне токенов.
Continuous Speech Synthesis using per-token Latent Diffusion
October 21, 2024
Авторы: Arnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel
cs.AI
Аннотация
Успех авторегрессионных моделей трансформера с дискретными токенами вдохновил подходы на основе квантования для непрерывных модальностей, хотя они часто ограничивают качество восстановления. Поэтому мы представляем SALAD, модель латентной диффузии на уровне токенов для нулевой конвертации текста в речь, которая работает с непрерывными представлениями. SALAD основана на недавно предложенной выразительной голове диффузии для генерации изображений и расширяет ее для создания выходных данных переменной длины. Наш подход использует семантические токены для предоставления контекстной информации и определения условия остановки. Мы предлагаем три непрерывных варианта для нашего метода, расширяя популярные дискретные техники синтеза речи. Кроме того, мы реализуем дискретные базовые варианты для каждого варианта и проводим сравнительный анализ дискретных и непрерывных техник моделирования речи. Наши результаты показывают, что как непрерывные, так и дискретные подходы являются очень конкурентоспособными, и что SALAD достигает более высокого показателя интеллигентности, сохраняя качество речи и сходство диктора на уровне с аудиозаписью истинности.
English
The success of autoregressive transformer models with discrete tokens has
inspired quantization-based approaches for continuous modalities, though these
often limit reconstruction quality. We therefore introduce SALAD, a per-token
latent diffusion model for zero-shot text-to-speech, that operates on
continuous representations. SALAD builds upon the recently proposed expressive
diffusion head for image generation, and extends it to generate variable-length
outputs. Our approach utilizes semantic tokens for providing contextual
information and determining the stopping condition. We suggest three continuous
variants for our method, extending popular discrete speech synthesis
techniques. Additionally, we implement discrete baselines for each variant and
conduct a comparative analysis of discrete versus continuous speech modeling
techniques. Our results demonstrate that both continuous and discrete
approaches are highly competent, and that SALAD achieves a superior
intelligibility score while obtaining speech quality and speaker similarity on
par with the ground-truth audio.Summary
AI-Generated Summary