EDMSound: Spektrogrammbasierte Diffusionsmodelle für effiziente und hochwertige Audiosynthese
EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis
November 15, 2023
Autoren: Ge Zhu, Yutong Wen, Marc-André Carbonneau, Zhiyao Duan
cs.AI
Zusammenfassung
Audiomodellierung durch Diffusion kann eine Vielzahl von Klängen synthetisieren. Bestehende Modelle arbeiten häufig im latenten Raum mit kaskadierten Phasenwiederherstellungsmodulen, um die Wellenform zu rekonstruieren. Dies stellt Herausforderungen bei der Erzeugung von hochwertigem Audio dar. In diesem Artikel schlagen wir EDMSound vor, ein diffusionsbasiertes generatives Modell im Spektrogrammbereich, das auf dem Framework der erläuterten Diffusionsmodelle (EDM) basiert. In Kombination mit einem effizienten deterministischen Sampler erreichten wir einen ähnlichen Fréchet-Audio-Distanz (FAD)-Score wie das beste Baseline-Modell mit nur 10 Schritten und erzielten mit 50 Schritten Spitzenleistungen auf dem DCASE2023-Benchmark für die Erzeugung von Foley-Sounds. Wir deckten auch ein potenzielles Problem bei diffusionsbasierten Audio-Generierungsmodellen auf: Sie neigen dazu, Samples mit hoher wahrgenommener Ähnlichkeit zu den Trainingsdaten zu erzeugen. Projektseite: https://agentcooper2002.github.io/EDMSound/
English
Audio diffusion models can synthesize a wide variety of sounds. Existing
models often operate on the latent domain with cascaded phase recovery modules
to reconstruct waveform. This poses challenges when generating high-fidelity
audio. In this paper, we propose EDMSound, a diffusion-based generative model
in spectrogram domain under the framework of elucidated diffusion models (EDM).
Combining with efficient deterministic sampler, we achieved similar Fr\'echet
audio distance (FAD) score as top-ranked baseline with only 10 steps and
reached state-of-the-art performance with 50 steps on the DCASE2023 foley sound
generation benchmark. We also revealed a potential concern regarding diffusion
based audio generation models that they tend to generate samples with high
perceptual similarity to the data from training data. Project page:
https://agentcooper2002.github.io/EDMSound/