EDMSound: Модели диффузии на основе спектрограмм для эффективного и высококачественного синтеза аудио
EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis
November 15, 2023
Авторы: Ge Zhu, Yutong Wen, Marc-André Carbonneau, Zhiyao Duan
cs.AI
Аннотация
Модели диффузии аудио способны синтезировать широкий спектр звуков. Существующие модели часто работают в латентном пространстве с каскадными модулями восстановления фазы для реконструкции звуковой волны. Это создает трудности при генерации высококачественного аудио. В данной статье мы предлагаем EDMSound, генеративную модель на основе диффузии в спектрограммном пространстве в рамках подхода уточненных моделей диффузии (EDM). В сочетании с эффективным детерминированным сэмплером мы достигли схожего показателя расстояния Фреше для аудио (FAD) с лучшими базовыми моделями всего за 10 шагов и достигли наилучших результатов за 50 шагов на бенчмарке генерации фоновых звуков DCASE2023. Мы также выявили потенциальную проблему моделей генерации аудио на основе диффузии: они склонны генерировать образцы с высокой перцептивной схожестью с данными из обучающей выборки. Страница проекта: https://agentcooper2002.github.io/EDMSound/
English
Audio diffusion models can synthesize a wide variety of sounds. Existing
models often operate on the latent domain with cascaded phase recovery modules
to reconstruct waveform. This poses challenges when generating high-fidelity
audio. In this paper, we propose EDMSound, a diffusion-based generative model
in spectrogram domain under the framework of elucidated diffusion models (EDM).
Combining with efficient deterministic sampler, we achieved similar Fr\'echet
audio distance (FAD) score as top-ranked baseline with only 10 steps and
reached state-of-the-art performance with 50 steps on the DCASE2023 foley sound
generation benchmark. We also revealed a potential concern regarding diffusion
based audio generation models that they tend to generate samples with high
perceptual similarity to the data from training data. Project page:
https://agentcooper2002.github.io/EDMSound/