PeriodWave: Многопериодное сопоставление потока для генерации волн высокой точности.

Аннотация

Недавно были исследованы задачи универсальной генерации волновых форм, условием для которых являются различные сценарии вне распределения. Хотя методы на основе GAN показали свою силу в быстрой генерации волновых форм, они уязвимы для сценариев несоответствия обучения и вывода, таких как двухэтапное преобразование текста в речь. Тем временем модели на основе диффузии продемонстрировали свою мощную генеративную производительность в других областях; однако они остаются в тени из-за медленной скорости вывода в задачах генерации волновых форм. Прежде всего, не существует архитектуры генератора, которая могла бы явно разделять естественные периодические особенности сигналов высокого разрешения волновых форм. В данной статье мы предлагаем PeriodWave, новую универсальную модель генерации волновых форм. Во-первых, мы представляем оценщик соответствия потоков, осведомленный о периодах, который может улавливать периодические особенности сигнала волновой формы при оценке векторных полей. Кроме того, мы используем мультипериодический оценщик, который избегает перекрытий для улавливания различных периодических особенностей сигналов волновых форм. Хотя увеличение количества периодов может значительно улучшить производительность, это требует больших вычислительных затрат. Для уменьшения этой проблемы мы также предлагаем универсальный оценщик, условием которого является один период, который может передаваться параллельно путем пакетного вывода по периодам. Кроме того, мы используем дискретное вейвлет-преобразование для без потерь разделения частотной информации сигналов волновых форм для моделирования высоких частот и представляем FreeU для уменьшения шума высоких частот при генерации волновых форм. Экспериментальные результаты показали, что наша модель превосходит предыдущие модели как в восстановлении мел-спектрограмм, так и в задачах текст в речь. Весь исходный код будет доступен по адресу https://github.com/sh-lee-prml/PeriodWave.

English

Recently, universal waveform generation tasks have been investigated conditioned on various out-of-distribution scenarios. Although GAN-based methods have shown their strength in fast waveform generation, they are vulnerable to train-inference mismatch scenarios such as two-stage text-to-speech. Meanwhile, diffusion-based models have shown their powerful generative performance in other domains; however, they stay out of the limelight due to slow inference speed in waveform generation tasks. Above all, there is no generator architecture that can explicitly disentangle the natural periodic features of high-resolution waveform signals. In this paper, we propose PeriodWave, a novel universal waveform generation model. First, we introduce a period-aware flow matching estimator that can capture the periodic features of the waveform signal when estimating the vector fields. Additionally, we utilize a multi-period estimator that avoids overlaps to capture different periodic features of waveform signals. Although increasing the number of periods can improve the performance significantly, this requires more computational costs. To reduce this issue, we also propose a single period-conditional universal estimator that can feed-forward parallel by period-wise batch inference. Additionally, we utilize discrete wavelet transform to losslessly disentangle the frequency information of waveform signals for high-frequency modeling, and introduce FreeU to reduce the high-frequency noise for waveform generation. The experimental results demonstrated that our model outperforms the previous models both in Mel-spectrogram reconstruction and text-to-speech tasks. All source code will be available at https://github.com/sh-lee-prml/PeriodWave.

PeriodWave: Многопериодное сопоставление потока для генерации волн высокой точности.

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

Аннотация

Support