PeriodWave: Correspondência de Fluxo Multi-Período para Geração de Formas de Onda de Alta Fidelidade

Resumo

Recentemente, tarefas de geração de forma de onda universal têm sido investigadas condicionadas a vários cenários fora da distribuição. Embora os métodos baseados em GAN tenham mostrado sua força na geração rápida de formas de onda, eles são vulneráveis a cenários de discrepância entre treinamento e inferência, como no caso de conversão de texto em fala em duas etapas. Enquanto isso, os modelos baseados em difusão têm mostrado seu poderoso desempenho generativo em outros domínios; no entanto, eles permanecem fora dos holofotes devido à lentidão na velocidade de inferência em tarefas de geração de formas de onda. Acima de tudo, não há uma arquitetura geradora que possa explicitamente separar as características periódicas naturais de sinais de forma de onda de alta resolução. Neste artigo, propomos o PeriodWave, um novo modelo de geração de forma de onda universal. Primeiramente, introduzimos um estimador de correspondência de fluxo consciente do período que pode capturar as características periódicas do sinal de forma de onda ao estimar os campos vetoriais. Além disso, utilizamos um estimador multi-período que evita sobreposições para capturar diferentes características periódicas de sinais de forma de onda. Embora aumentar o número de períodos possa melhorar significativamente o desempenho, isso requer mais custos computacionais. Para reduzir esse problema, também propomos um estimador universal condicional de único período que pode avançar por alimentação paralela por inferência em lote por período. Além disso, utilizamos a transformada wavelet discreta para separar sem perdas as informações de frequência de sinais de forma de onda para modelagem de alta frequência, e introduzimos o FreeU para reduzir o ruído de alta frequência para geração de formas de onda. Os resultados experimentais demonstraram que nosso modelo supera os modelos anteriores tanto na reconstrução de Mel-espectrograma quanto nas tarefas de conversão de texto em fala. Todo o código fonte estará disponível em https://github.com/sh-lee-prml/PeriodWave.

English

Recently, universal waveform generation tasks have been investigated conditioned on various out-of-distribution scenarios. Although GAN-based methods have shown their strength in fast waveform generation, they are vulnerable to train-inference mismatch scenarios such as two-stage text-to-speech. Meanwhile, diffusion-based models have shown their powerful generative performance in other domains; however, they stay out of the limelight due to slow inference speed in waveform generation tasks. Above all, there is no generator architecture that can explicitly disentangle the natural periodic features of high-resolution waveform signals. In this paper, we propose PeriodWave, a novel universal waveform generation model. First, we introduce a period-aware flow matching estimator that can capture the periodic features of the waveform signal when estimating the vector fields. Additionally, we utilize a multi-period estimator that avoids overlaps to capture different periodic features of waveform signals. Although increasing the number of periods can improve the performance significantly, this requires more computational costs. To reduce this issue, we also propose a single period-conditional universal estimator that can feed-forward parallel by period-wise batch inference. Additionally, we utilize discrete wavelet transform to losslessly disentangle the frequency information of waveform signals for high-frequency modeling, and introduce FreeU to reduce the high-frequency noise for waveform generation. The experimental results demonstrated that our model outperforms the previous models both in Mel-spectrogram reconstruction and text-to-speech tasks. All source code will be available at https://github.com/sh-lee-prml/PeriodWave.

PeriodWave: Correspondência de Fluxo Multi-Período para Geração de Formas de Onda de Alta Fidelidade

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

Resumo

Summary

Support

Support