EDMSound: Модели диффузии на основе спектрограмм для эффективного и высококачественного синтеза аудио

Аннотация

Модели диффузии аудио способны синтезировать широкий спектр звуков. Существующие модели часто работают в латентном пространстве с каскадными модулями восстановления фазы для реконструкции звуковой волны. Это создает трудности при генерации высококачественного аудио. В данной статье мы предлагаем EDMSound, генеративную модель на основе диффузии в спектрограммном пространстве в рамках подхода уточненных моделей диффузии (EDM). В сочетании с эффективным детерминированным сэмплером мы достигли схожего показателя расстояния Фреше для аудио (FAD) с лучшими базовыми моделями всего за 10 шагов и достигли наилучших результатов за 50 шагов на бенчмарке генерации фоновых звуков DCASE2023. Мы также выявили потенциальную проблему моделей генерации аудио на основе диффузии: они склонны генерировать образцы с высокой перцептивной схожестью с данными из обучающей выборки. Страница проекта: https://agentcooper2002.github.io/EDMSound/

English

Audio diffusion models can synthesize a wide variety of sounds. Existing models often operate on the latent domain with cascaded phase recovery modules to reconstruct waveform. This poses challenges when generating high-fidelity audio. In this paper, we propose EDMSound, a diffusion-based generative model in spectrogram domain under the framework of elucidated diffusion models (EDM). Combining with efficient deterministic sampler, we achieved similar Fr\'echet audio distance (FAD) score as top-ranked baseline with only 10 steps and reached state-of-the-art performance with 50 steps on the DCASE2023 foley sound generation benchmark. We also revealed a potential concern regarding diffusion based audio generation models that they tend to generate samples with high perceptual similarity to the data from training data. Project page: https://agentcooper2002.github.io/EDMSound/

EDMSound: Модели диффузии на основе спектрограмм для эффективного и высококачественного синтеза аудио

EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis

Аннотация

Support