PeriodWave: Coincidencia de Flujo Multi-Período para la Generación de Formas de Onda de Alta Fidelidad
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
Autores: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Resumen
Recientemente, se han investigado tareas de generación de formas de onda universales condicionadas a varios escenarios fuera de distribución. Aunque los métodos basados en GAN han demostrado su fortaleza en la generación rápida de formas de onda, son vulnerables a escenarios de desajuste entre entrenamiento e inferencia como la conversión de texto a voz en dos etapas. Mientras tanto, los modelos basados en difusión han mostrado su potente rendimiento generativo en otros dominios; sin embargo, permanecen fuera del foco de atención debido a la lenta velocidad de inferencia en tareas de generación de formas de onda. Sobre todo, no existe una arquitectura de generador que pueda desentrañar explícitamente las características periódicas naturales de las señales de formas de onda de alta resolución. En este documento, proponemos PeriodWave, un modelo novedoso de generación de formas de onda universal. En primer lugar, introducimos un estimador de coincidencia de flujo consciente del periodo que puede capturar las características periódicas de la señal de forma de onda al estimar los campos vectoriales. Además, utilizamos un estimador multi-periódico que evita superposiciones para capturar diferentes características periódicas de las señales de formas de onda. Aunque aumentar el número de períodos puede mejorar significativamente el rendimiento, esto requiere más costos computacionales. Para reducir este problema, también proponemos un estimador universal condicional de un solo periodo que puede realizar inferencia en paralelo por lotes de forma periódica. Además, utilizamos la transformada wavelet discreta para desentrañar sin pérdidas la información de frecuencia de las señales de formas de onda para modelado de alta frecuencia, e introducimos FreeU para reducir el ruido de alta frecuencia en la generación de formas de onda. Los resultados experimentales demostraron que nuestro modelo supera a los modelos anteriores tanto en la reconstrucción de Mel-espectrogramas como en tareas de conversión de texto a voz. Todo el código fuente estará disponible en https://github.com/sh-lee-prml/PeriodWave.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary