PeriodWave: Multi-Periodisch Flow Matching voor Hoogwaardige Golfvormgeneratie
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
Auteurs: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Samenvatting
Onlangs zijn universele golfvormgeneratietaken onderzocht onder verschillende out-of-distribution scenario's. Hoewel GAN-gebaseerde methoden hun kracht hebben getoond in snelle golfvormgeneratie, zijn ze kwetsbaar voor train-inference mismatch scenario's zoals tweestaps tekst-naar-spraak. Ondertussen hebben diffusiegebaseerde modellen hun krachtige generatieve prestaties getoond in andere domeinen; ze blijven echter buiten de schijnwerpers vanwege de langzame inferentiesnelheid bij golfvormgeneratietaken. Bovendien is er geen generatorarchitectuur die de natuurlijke periodieke kenmerken van hoogresolutie golfvormsignalen expliciet kan ontwarren. In dit artikel stellen we PeriodWave voor, een nieuw universeel golfvormgeneratiemodel. Ten eerste introduceren we een period-aware flow matching estimator die de periodieke kenmerken van het golfvormsignaal kan vastleggen bij het schatten van de vectorvelden. Daarnaast gebruiken we een multi-period estimator die overlappingen vermijdt om verschillende periodieke kenmerken van golfvormsignalen vast te leggen. Hoewel het verhogen van het aantal perioden de prestaties aanzienlijk kan verbeteren, vereist dit meer rekenkosten. Om dit probleem te verminderen, stellen we ook een single period-conditional universele estimator voor die parallel kan voeden door period-wise batch inference. Bovendien gebruiken we discrete wavelet transform om de frequentie-informatie van golfvormsignalen verliesvrij te ontwarren voor hoogfrequente modellering, en introduceren we FreeU om de hoogfrequente ruis voor golfvormgeneratie te verminderen. De experimentele resultaten toonden aan dat ons model de vorige modellen overtreft in zowel Mel-spectrogramreconstructie als tekst-naar-spraaktaken. Alle broncode zal beschikbaar zijn op https://github.com/sh-lee-prml/PeriodWave.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.