EDMSound: Modelos de Difusão Baseados em Espectrogramas para Síntese de Áudio Eficiente e de Alta Qualidade
EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis
November 15, 2023
Autores: Ge Zhu, Yutong Wen, Marc-André Carbonneau, Zhiyao Duan
cs.AI
Resumo
Modelos de difusão de áudio podem sintetizar uma ampla variedade de sons. Os modelos existentes frequentemente operam no domínio latente com módulos de recuperação de fase em cascata para reconstruir a forma de onda. Isso apresenta desafios ao gerar áudio de alta fidelidade. Neste artigo, propomos o EDMSound, um modelo generativo baseado em difusão no domínio de espectrogramas sob o framework de modelos de difusão elucidados (EDM). Combinado com um amostrador determinístico eficiente, alcançamos uma pontuação de distância de Fréchet de áudio (FAD) semelhante à do melhor baseline com apenas 10 passos e atingimos desempenho de ponta com 50 passos no benchmark de geração de sons foley do DCASE2023. Também revelamos uma preocupação potencial em relação aos modelos de geração de áudio baseados em difusão, que tendem a gerar amostras com alta similaridade perceptiva aos dados de treinamento. Página do projeto: https://agentcooper2002.github.io/EDMSound/
English
Audio diffusion models can synthesize a wide variety of sounds. Existing
models often operate on the latent domain with cascaded phase recovery modules
to reconstruct waveform. This poses challenges when generating high-fidelity
audio. In this paper, we propose EDMSound, a diffusion-based generative model
in spectrogram domain under the framework of elucidated diffusion models (EDM).
Combining with efficient deterministic sampler, we achieved similar Fr\'echet
audio distance (FAD) score as top-ranked baseline with only 10 steps and
reached state-of-the-art performance with 50 steps on the DCASE2023 foley sound
generation benchmark. We also revealed a potential concern regarding diffusion
based audio generation models that they tend to generate samples with high
perceptual similarity to the data from training data. Project page:
https://agentcooper2002.github.io/EDMSound/