PeriodWave: Abbinamento di Flussi Multi-Periodo per la Generazione di Forme d'Onda ad Alta Fedeltà
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
Autori: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Abstract
Recentemente, sono stati studiati compiti di generazione universale di forme d'onda in vari scenari fuori distribuzione. Sebbene i metodi basati su GAN abbiano dimostrato la loro efficacia nella generazione rapida di forme d'onda, sono vulnerabili a scenari di disallineamento tra addestramento e inferenza, come nel caso della sintesi vocale a due stadi. Nel frattempo, i modelli basati su diffusione hanno mostrato una potente capacità generativa in altri domini; tuttavia, rimangono fuori dai riflettori a causa della lentezza nell'inferenza nei compiti di generazione di forme d'onda. Soprattutto, non esiste un'architettura generativa in grado di separare esplicitamente le caratteristiche periodiche naturali dei segnali di forma d'onda ad alta risoluzione. In questo articolo, proponiamo PeriodWave, un nuovo modello universale di generazione di forme d'onda. In primo luogo, introduciamo un estimatore di flusso periodico che può catturare le caratteristiche periodiche del segnale di forma d'onda durante la stima dei campi vettoriali. Inoltre, utilizziamo un estimatore multi-periodo che evita sovrapposizioni per catturare diverse caratteristiche periodiche dei segnali di forma d'onda. Sebbene l'aumento del numero di periodi possa migliorare significativamente le prestazioni, ciò richiede maggiori costi computazionali. Per ridurre questo problema, proponiamo anche un estimatore universale condizionato a un singolo periodo che può eseguire inferenze parallele in avanti per batch periodici. Inoltre, utilizziamo la trasformata wavelet discreta per separare senza perdite le informazioni di frequenza dei segnali di forma d'onda per la modellazione ad alta frequenza e introduciamo FreeU per ridurre il rumore ad alta frequenza nella generazione di forme d'onda. I risultati sperimentali hanno dimostrato che il nostro modello supera i modelli precedenti sia nella ricostruzione di Mel-spettrogrammi che nei compiti di sintesi vocale. Tutto il codice sorgente sarà disponibile all'indirizzo https://github.com/sh-lee-prml/PeriodWave.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.