PeriodWave : Appariement de flux multi-périodes pour la génération de formes d'onde haute fidélité
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
Auteurs: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Résumé
Récemment, les tâches de génération universelle de formes d'onde ont été étudiées dans divers scénarios hors distribution. Bien que les méthodes basées sur les GAN aient démontré leur efficacité pour une génération rapide de formes d'onde, elles sont vulnérables aux situations de décalage entre l'entraînement et l'inférence, comme dans les systèmes de synthèse vocale en deux étapes. Par ailleurs, les modèles basés sur la diffusion ont montré de puissantes performances génératives dans d'autres domaines ; cependant, ils restent dans l'ombre en raison de leur lenteur d'inférence dans les tâches de génération de formes d'onde. Surtout, il n'existe aucune architecture de générateur capable de désentrelacer explicitement les caractéristiques périodiques naturelles des signaux de forme d'onde haute résolution. Dans cet article, nous proposons PeriodWave, un nouveau modèle universel de génération de formes d'onde. Tout d'abord, nous introduisons un estimateur de correspondance de flux sensible à la période, capable de capturer les caractéristiques périodiques du signal de forme d'onde lors de l'estimation des champs vectoriels. De plus, nous utilisons un estimateur multi-période qui évite les chevauchements pour capturer différentes caractéristiques périodiques des signaux de forme d'onde. Bien qu'augmenter le nombre de périodes puisse améliorer significativement les performances, cela nécessite des coûts de calcul plus élevés. Pour réduire ce problème, nous proposons également un estimateur universel conditionné à une seule période, capable de réaliser une inférence parallèle par lots en fonction des périodes. En outre, nous utilisons la transformée en ondelettes discrète pour désentrelacer sans perte les informations de fréquence des signaux de forme d'onde pour la modélisation des hautes fréquences, et introduisons FreeU pour réduire le bruit haute fréquence lors de la génération de formes d'onde. Les résultats expérimentaux ont démontré que notre modèle surpasse les modèles précédents à la fois dans la reconstruction de Mel-spectrogrammes et dans les tâches de synthèse vocale. Tout le code source sera disponible à l'adresse https://github.com/sh-lee-prml/PeriodWave.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary