PeriodWave: 고성능 파형 생성을 위한 다기간 플로우 매칭
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
저자: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
초록
최근에는 다양한 분포 시나리오에 조건을 부여한 범용 파형 생성 작업이 조사되었습니다. GAN 기반 방법은 빠른 파형 생성에서 강점을 보여주었지만, 두 단계 텍스트 음성 변환과 같은 훈련-추론 불일치 시나리오에 취약합니다. 한편, 확산 기반 모델은 다른 영역에서 강력한 생성 성능을 보여주었지만, 파형 생성 작업에서 추론 속도가 느린 것으로 알려져 있습니다. 무엇보다도, 고해상도 파형 신호의 자연 주기적 특징을 명시적으로 분리할 수 있는 생성자 구조가 없습니다. 본 논문에서는 새로운 범용 파형 생성 모델인 PeriodWave를 제안합니다. 먼저, 벡터 필드를 추정할 때 파형 신호의 주기적 특징을 포착할 수 있는 주기 인식 플로 매칭 추정기를 소개합니다. 또한, 서로 겹치지 않도록 다른 주기적 특징을 포착하기 위해 다중 주기 추정기를 활용합니다. 주기 수를 증가시키면 성능을 크게 향상시킬 수 있지만, 이는 더 많은 계산 비용을 필요로 합니다. 이 문제를 줄이기 위해 주기별 배치 추론을 통해 병렬로 전달할 수 있는 단일 주기 조건부 범용 추정기를 제안합니다. 또한, 고주파 모델링을 위해 파형 신호의 주파수 정보를 손실 없이 분리할 수 있는 이산 웨이블릿 변환을 활용하고, 파형 생성을 위해 고주파 잡음을 줄이기 위해 FreeU를 소개합니다. 실험 결과는 우리 모델이 Mel-스펙트로그램 재구성 및 텍스트 음성 변환 작업에서 이전 모델을 능가함을 입증했습니다. 모든 소스 코드는 https://github.com/sh-lee-prml/PeriodWave에서 제공될 예정입니다.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary