PeriodWave: Многопериодное сопоставление потока для генерации волн высокой точности.
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
August 14, 2024
Авторы: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Аннотация
Недавно были исследованы задачи универсальной генерации волновых форм, условием для которых являются различные сценарии вне распределения. Хотя методы на основе GAN показали свою силу в быстрой генерации волновых форм, они уязвимы для сценариев несоответствия обучения и вывода, таких как двухэтапное преобразование текста в речь. Тем временем модели на основе диффузии продемонстрировали свою мощную генеративную производительность в других областях; однако они остаются в тени из-за медленной скорости вывода в задачах генерации волновых форм. Прежде всего, не существует архитектуры генератора, которая могла бы явно разделять естественные периодические особенности сигналов высокого разрешения волновых форм. В данной статье мы предлагаем PeriodWave, новую универсальную модель генерации волновых форм. Во-первых, мы представляем оценщик соответствия потоков, осведомленный о периодах, который может улавливать периодические особенности сигнала волновой формы при оценке векторных полей. Кроме того, мы используем мультипериодический оценщик, который избегает перекрытий для улавливания различных периодических особенностей сигналов волновых форм. Хотя увеличение количества периодов может значительно улучшить производительность, это требует больших вычислительных затрат. Для уменьшения этой проблемы мы также предлагаем универсальный оценщик, условием которого является один период, который может передаваться параллельно путем пакетного вывода по периодам. Кроме того, мы используем дискретное вейвлет-преобразование для без потерь разделения частотной информации сигналов волновых форм для моделирования высоких частот и представляем FreeU для уменьшения шума высоких частот при генерации волновых форм. Экспериментальные результаты показали, что наша модель превосходит предыдущие модели как в восстановлении мел-спектрограмм, так и в задачах текст в речь. Весь исходный код будет доступен по адресу https://github.com/sh-lee-prml/PeriodWave.
English
Recently, universal waveform generation tasks have been investigated
conditioned on various out-of-distribution scenarios. Although GAN-based
methods have shown their strength in fast waveform generation, they are
vulnerable to train-inference mismatch scenarios such as two-stage
text-to-speech. Meanwhile, diffusion-based models have shown their powerful
generative performance in other domains; however, they stay out of the
limelight due to slow inference speed in waveform generation tasks. Above all,
there is no generator architecture that can explicitly disentangle the natural
periodic features of high-resolution waveform signals. In this paper, we
propose PeriodWave, a novel universal waveform generation model. First, we
introduce a period-aware flow matching estimator that can capture the periodic
features of the waveform signal when estimating the vector fields.
Additionally, we utilize a multi-period estimator that avoids overlaps to
capture different periodic features of waveform signals. Although increasing
the number of periods can improve the performance significantly, this requires
more computational costs. To reduce this issue, we also propose a single
period-conditional universal estimator that can feed-forward parallel by
period-wise batch inference. Additionally, we utilize discrete wavelet
transform to losslessly disentangle the frequency information of waveform
signals for high-frequency modeling, and introduce FreeU to reduce the
high-frequency noise for waveform generation. The experimental results
demonstrated that our model outperforms the previous models both in
Mel-spectrogram reconstruction and text-to-speech tasks. All source code will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary