ChatPaper.aiChatPaper

PeriodWave: Abbinamento di Flussi Multi-Periodo per la Generazione di Forme d'Onda ad Alta Fedeltà

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

August 14, 2024
Autori: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI

Abstract

Recentemente, sono stati studiati compiti di generazione universale di forme d'onda in vari scenari fuori distribuzione. Sebbene i metodi basati su GAN abbiano dimostrato la loro efficacia nella generazione rapida di forme d'onda, sono vulnerabili a scenari di disallineamento tra addestramento e inferenza, come nel caso della sintesi vocale a due stadi. Nel frattempo, i modelli basati su diffusione hanno mostrato una potente capacità generativa in altri domini; tuttavia, rimangono fuori dai riflettori a causa della lentezza nell'inferenza nei compiti di generazione di forme d'onda. Soprattutto, non esiste un'architettura generativa in grado di separare esplicitamente le caratteristiche periodiche naturali dei segnali di forma d'onda ad alta risoluzione. In questo articolo, proponiamo PeriodWave, un nuovo modello universale di generazione di forme d'onda. In primo luogo, introduciamo un estimatore di flusso periodico che può catturare le caratteristiche periodiche del segnale di forma d'onda durante la stima dei campi vettoriali. Inoltre, utilizziamo un estimatore multi-periodo che evita sovrapposizioni per catturare diverse caratteristiche periodiche dei segnali di forma d'onda. Sebbene l'aumento del numero di periodi possa migliorare significativamente le prestazioni, ciò richiede maggiori costi computazionali. Per ridurre questo problema, proponiamo anche un estimatore universale condizionato a un singolo periodo che può eseguire inferenze parallele in avanti per batch periodici. Inoltre, utilizziamo la trasformata wavelet discreta per separare senza perdite le informazioni di frequenza dei segnali di forma d'onda per la modellazione ad alta frequenza e introduciamo FreeU per ridurre il rumore ad alta frequenza nella generazione di forme d'onda. I risultati sperimentali hanno dimostrato che il nostro modello supera i modelli precedenti sia nella ricostruzione di Mel-spettrogrammi che nei compiti di sintesi vocale. Tutto il codice sorgente sarà disponibile all'indirizzo https://github.com/sh-lee-prml/PeriodWave.
English
Recently, universal waveform generation tasks have been investigated conditioned on various out-of-distribution scenarios. Although GAN-based methods have shown their strength in fast waveform generation, they are vulnerable to train-inference mismatch scenarios such as two-stage text-to-speech. Meanwhile, diffusion-based models have shown their powerful generative performance in other domains; however, they stay out of the limelight due to slow inference speed in waveform generation tasks. Above all, there is no generator architecture that can explicitly disentangle the natural periodic features of high-resolution waveform signals. In this paper, we propose PeriodWave, a novel universal waveform generation model. First, we introduce a period-aware flow matching estimator that can capture the periodic features of the waveform signal when estimating the vector fields. Additionally, we utilize a multi-period estimator that avoids overlaps to capture different periodic features of waveform signals. Although increasing the number of periods can improve the performance significantly, this requires more computational costs. To reduce this issue, we also propose a single period-conditional universal estimator that can feed-forward parallel by period-wise batch inference. Additionally, we utilize discrete wavelet transform to losslessly disentangle the frequency information of waveform signals for high-frequency modeling, and introduce FreeU to reduce the high-frequency noise for waveform generation. The experimental results demonstrated that our model outperforms the previous models both in Mel-spectrogram reconstruction and text-to-speech tasks. All source code will be available at https://github.com/sh-lee-prml/PeriodWave.
PDF83November 28, 2024