PeriodWave: Mehrperiodenflussabgleich für hochauflösende Wellenformgenerierung

papers.abstract

In letzter Zeit wurden universelle Wellenformgenerierungsaufgaben unter verschiedenen Out-of-Distribution-Szenarien untersucht. Obwohl GAN-basierte Methoden ihre Stärke in der schnellen Wellenformgenerierung gezeigt haben, sind sie anfällig für Train-Inference-Mismatch-Szenarien wie z. B. Zwei-Stufen-Text-zu-Sprache. Andererseits haben Diffusionsbasierte Modelle ihre starke generative Leistung in anderen Bereichen gezeigt; jedoch bleiben sie aufgrund der langsamen Inferenzgeschwindigkeit bei Wellenformgenerierungsaufgaben im Hintergrund. Vor allem gibt es keine Generatorarchitektur, die die natürlichen periodischen Merkmale von hochauflösenden Wellenformsignalen explizit trennen kann. In diesem Paper schlagen wir PeriodWave vor, ein neuartiges universelles Wellenformgenerierungsmodell vor. Zunächst führen wir einen periodenbewussten Flussanpassungsschätzer ein, der die periodischen Merkmale des Wellenformsignals erfassen kann, wenn die Vektorfelder geschätzt werden. Darüber hinaus nutzen wir einen Multi-Perioden-Schätzer, der Überlappungen vermeidet, um verschiedene periodische Merkmale von Wellenformsignalen zu erfassen. Obwohl die Erhöhung der Anzahl von Perioden die Leistung signifikant verbessern kann, erfordert dies höhere Rechenkosten. Um dieses Problem zu reduzieren, schlagen wir auch einen einzelnen periodenbedingten universellen Schätzer vor, der parallel periodenweise durch Vorwärtsverarbeitung in Batches inferieren kann. Zusätzlich nutzen wir die diskrete Wavelet-Transformation, um die Frequenzinformationen von Wellenformsignalen verlustfrei zu trennen, um eine Modellierung hoher Frequenzen zu ermöglichen, und führen FreeU ein, um das Rauschen hoher Frequenzen bei der Wellenformgenerierung zu reduzieren. Die experimentellen Ergebnisse zeigten, dass unser Modell sowohl bei der Rekonstruktion von Mel-Spektrogrammen als auch bei Text-zu-Sprache-Aufgaben die bisherigen Modelle übertrifft. Der gesamte Quellcode wird unter https://github.com/sh-lee-prml/PeriodWave verfügbar sein.

English

Recently, universal waveform generation tasks have been investigated conditioned on various out-of-distribution scenarios. Although GAN-based methods have shown their strength in fast waveform generation, they are vulnerable to train-inference mismatch scenarios such as two-stage text-to-speech. Meanwhile, diffusion-based models have shown their powerful generative performance in other domains; however, they stay out of the limelight due to slow inference speed in waveform generation tasks. Above all, there is no generator architecture that can explicitly disentangle the natural periodic features of high-resolution waveform signals. In this paper, we propose PeriodWave, a novel universal waveform generation model. First, we introduce a period-aware flow matching estimator that can capture the periodic features of the waveform signal when estimating the vector fields. Additionally, we utilize a multi-period estimator that avoids overlaps to capture different periodic features of waveform signals. Although increasing the number of periods can improve the performance significantly, this requires more computational costs. To reduce this issue, we also propose a single period-conditional universal estimator that can feed-forward parallel by period-wise batch inference. Additionally, we utilize discrete wavelet transform to losslessly disentangle the frequency information of waveform signals for high-frequency modeling, and introduce FreeU to reduce the high-frequency noise for waveform generation. The experimental results demonstrated that our model outperforms the previous models both in Mel-spectrogram reconstruction and text-to-speech tasks. All source code will be available at https://github.com/sh-lee-prml/PeriodWave.

PeriodWave: Mehrperiodenflussabgleich für hochauflösende Wellenformgenerierung

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

papers.abstract

Support