PeriodWave: Correspondência de Fluxo Multi-Período para Geração de Formas de Onda de Alta Fidelidade
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
Autores: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Resumo
Recentemente, tarefas de geração de forma de onda universal têm sido investigadas condicionadas a vários cenários fora da distribuição. Embora os métodos baseados em GAN tenham mostrado sua força na geração rápida de formas de onda, eles são vulneráveis a cenários de discrepância entre treinamento e inferência, como no caso de conversão de texto em fala em duas etapas. Enquanto isso, os modelos baseados em difusão têm mostrado seu poderoso desempenho generativo em outros domínios; no entanto, eles permanecem fora dos holofotes devido à lentidão na velocidade de inferência em tarefas de geração de formas de onda. Acima de tudo, não há uma arquitetura geradora que possa explicitamente separar as características periódicas naturais de sinais de forma de onda de alta resolução. Neste artigo, propomos o PeriodWave, um novo modelo de geração de forma de onda universal. Primeiramente, introduzimos um estimador de correspondência de fluxo consciente do período que pode capturar as características periódicas do sinal de forma de onda ao estimar os campos vetoriais. Além disso, utilizamos um estimador multi-período que evita sobreposições para capturar diferentes características periódicas de sinais de forma de onda. Embora aumentar o número de períodos possa melhorar significativamente o desempenho, isso requer mais custos computacionais. Para reduzir esse problema, também propomos um estimador universal condicional de único período que pode avançar por alimentação paralela por inferência em lote por período. Além disso, utilizamos a transformada wavelet discreta para separar sem perdas as informações de frequência de sinais de forma de onda para modelagem de alta frequência, e introduzimos o FreeU para reduzir o ruído de alta frequência para geração de formas de onda. Os resultados experimentais demonstraram que nosso modelo supera os modelos anteriores tanto na reconstrução de Mel-espectrograma quanto nas tarefas de conversão de texto em fala. Todo o código fonte estará disponível em https://github.com/sh-lee-prml/PeriodWave.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary