PeriodWave: Mehrperiodenflussabgleich für hochauflösende Wellenformgenerierung
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
Autoren: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Zusammenfassung
In letzter Zeit wurden universelle Wellenformgenerierungsaufgaben unter verschiedenen Out-of-Distribution-Szenarien untersucht. Obwohl GAN-basierte Methoden ihre Stärke in der schnellen Wellenformgenerierung gezeigt haben, sind sie anfällig für Train-Inference-Mismatch-Szenarien wie z. B. Zwei-Stufen-Text-zu-Sprache. Andererseits haben Diffusionsbasierte Modelle ihre starke generative Leistung in anderen Bereichen gezeigt; jedoch bleiben sie aufgrund der langsamen Inferenzgeschwindigkeit bei Wellenformgenerierungsaufgaben im Hintergrund. Vor allem gibt es keine Generatorarchitektur, die die natürlichen periodischen Merkmale von hochauflösenden Wellenformsignalen explizit trennen kann. In diesem Paper schlagen wir PeriodWave vor, ein neuartiges universelles Wellenformgenerierungsmodell vor. Zunächst führen wir einen periodenbewussten Flussanpassungsschätzer ein, der die periodischen Merkmale des Wellenformsignals erfassen kann, wenn die Vektorfelder geschätzt werden. Darüber hinaus nutzen wir einen Multi-Perioden-Schätzer, der Überlappungen vermeidet, um verschiedene periodische Merkmale von Wellenformsignalen zu erfassen. Obwohl die Erhöhung der Anzahl von Perioden die Leistung signifikant verbessern kann, erfordert dies höhere Rechenkosten. Um dieses Problem zu reduzieren, schlagen wir auch einen einzelnen periodenbedingten universellen Schätzer vor, der parallel periodenweise durch Vorwärtsverarbeitung in Batches inferieren kann. Zusätzlich nutzen wir die diskrete Wavelet-Transformation, um die Frequenzinformationen von Wellenformsignalen verlustfrei zu trennen, um eine Modellierung hoher Frequenzen zu ermöglichen, und führen FreeU ein, um das Rauschen hoher Frequenzen bei der Wellenformgenerierung zu reduzieren. Die experimentellen Ergebnisse zeigten, dass unser Modell sowohl bei der Rekonstruktion von Mel-Spektrogrammen als auch bei Text-zu-Sprache-Aufgaben die bisherigen Modelle übertrifft. Der gesamte Quellcode wird unter https://github.com/sh-lee-prml/PeriodWave verfügbar sein.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary