EDMSound: Spectrogram-gebaseerde diffusiemodellen voor efficiënte en hoogwaardige audiosynthese
EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis
November 15, 2023
Auteurs: Ge Zhu, Yutong Wen, Marc-André Carbonneau, Zhiyao Duan
cs.AI
Samenvatting
Audio-diffusiemodellen kunnen een breed scala aan geluiden synthetiseren. Bestaande modellen werken vaak in het latente domein met gecascadeerde faseherstelmodules om de golfvorm te reconstrueren. Dit brengt uitdagingen met zich mee bij het genereren van hoogwaardige audio. In dit artikel stellen we EDMSound voor, een op diffusie gebaseerd generatief model in het spectrogramdomein binnen het raamwerk van geëxpliceerde diffusiemodellen (EDM). In combinatie met een efficiënte deterministische sampler behaalden we een vergelijkbare Fréchet-audio-afstand (FAD)-score als de hoogst gerangschikte baseline met slechts 10 stappen en bereikten we state-of-the-art prestaties met 50 stappen op de DCASE2023-foley-geluidgeneratiebenchmark. We hebben ook een potentieel probleem onthuld met betrekking tot op diffusie gebaseerde audiogeneratiemodellen, namelijk dat ze de neiging hebben om samples te genereren met een hoge perceptuele gelijkenis met de gegevens uit de trainingsdata. Projectpagina: https://agentcooper2002.github.io/EDMSound/
English
Audio diffusion models can synthesize a wide variety of sounds. Existing
models often operate on the latent domain with cascaded phase recovery modules
to reconstruct waveform. This poses challenges when generating high-fidelity
audio. In this paper, we propose EDMSound, a diffusion-based generative model
in spectrogram domain under the framework of elucidated diffusion models (EDM).
Combining with efficient deterministic sampler, we achieved similar Fr\'echet
audio distance (FAD) score as top-ranked baseline with only 10 steps and
reached state-of-the-art performance with 50 steps on the DCASE2023 foley sound
generation benchmark. We also revealed a potential concern regarding diffusion
based audio generation models that they tend to generate samples with high
perceptual similarity to the data from training data. Project page:
https://agentcooper2002.github.io/EDMSound/