ChatPaper.aiChatPaper

EDMSound: Spectrogram-gebaseerde diffusiemodellen voor efficiënte en hoogwaardige audiosynthese

EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis

November 15, 2023
Auteurs: Ge Zhu, Yutong Wen, Marc-André Carbonneau, Zhiyao Duan
cs.AI

Samenvatting

Audio-diffusiemodellen kunnen een breed scala aan geluiden synthetiseren. Bestaande modellen werken vaak in het latente domein met gecascadeerde faseherstelmodules om de golfvorm te reconstrueren. Dit brengt uitdagingen met zich mee bij het genereren van hoogwaardige audio. In dit artikel stellen we EDMSound voor, een op diffusie gebaseerd generatief model in het spectrogramdomein binnen het raamwerk van geëxpliceerde diffusiemodellen (EDM). In combinatie met een efficiënte deterministische sampler behaalden we een vergelijkbare Fréchet-audio-afstand (FAD)-score als de hoogst gerangschikte baseline met slechts 10 stappen en bereikten we state-of-the-art prestaties met 50 stappen op de DCASE2023-foley-geluidgeneratiebenchmark. We hebben ook een potentieel probleem onthuld met betrekking tot op diffusie gebaseerde audiogeneratiemodellen, namelijk dat ze de neiging hebben om samples te genereren met een hoge perceptuele gelijkenis met de gegevens uit de trainingsdata. Projectpagina: https://agentcooper2002.github.io/EDMSound/
English
Audio diffusion models can synthesize a wide variety of sounds. Existing models often operate on the latent domain with cascaded phase recovery modules to reconstruct waveform. This poses challenges when generating high-fidelity audio. In this paper, we propose EDMSound, a diffusion-based generative model in spectrogram domain under the framework of elucidated diffusion models (EDM). Combining with efficient deterministic sampler, we achieved similar Fr\'echet audio distance (FAD) score as top-ranked baseline with only 10 steps and reached state-of-the-art performance with 50 steps on the DCASE2023 foley sound generation benchmark. We also revealed a potential concern regarding diffusion based audio generation models that they tend to generate samples with high perceptual similarity to the data from training data. Project page: https://agentcooper2002.github.io/EDMSound/
PDF191December 15, 2024