Von diskreten Tokens zu hochwertigem Audio mittels Multi-Band-Diffusion
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion
August 2, 2023
papers.authors: Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve, Alexandre Défossez
cs.AI
papers.abstract
Tiefe generative Modelle können hochwertige Audiodaten erzeugen, die auf verschiedenen Arten von Repräsentationen basieren (z. B. Mel-Spektrogramme, Mel-Frequenz-Cepstrum-Koeffizienten (MFCC)). Kürzlich wurden solche Modelle verwendet, um Audiowellenformen auf der Grundlage stark komprimierter Repräsentationen zu synthetisieren. Obwohl diese Methoden beeindruckende Ergebnisse liefern, neigen sie dazu, hörbare Artefakte zu erzeugen, wenn die Konditionierung fehlerhaft oder unvollkommen ist. Ein alternativer Modellierungsansatz ist die Verwendung von Diffusionsmodellen. Diese wurden jedoch hauptsächlich als Sprachvocoder (d. h. basierend auf Mel-Spektrogrammen) oder zur Erzeugung von Signalen mit relativ niedriger Abtastrate eingesetzt. In dieser Arbeit schlagen wir ein hochwertiges, multiband-basiertes Diffusionsframework vor, das jede Art von Audiomodaliät (z. B. Sprache, Musik, Umgebungsgeräusche) aus niedrigbitratigen diskreten Repräsentationen erzeugt. Bei gleicher Bitrate übertrifft der vorgeschlagene Ansatz state-of-the-art generative Techniken in Bezug auf die wahrgenommene Qualität. Trainings- und Evaluierungscode sowie Audio-Beispiele sind auf der Facebookresearch/audiocraft Github-Seite verfügbar.
English
Deep generative models can generate high-fidelity audio conditioned on
various types of representations (e.g., mel-spectrograms, Mel-frequency
Cepstral Coefficients (MFCC)). Recently, such models have been used to
synthesize audio waveforms conditioned on highly compressed representations.
Although such methods produce impressive results, they are prone to generate
audible artifacts when the conditioning is flawed or imperfect. An alternative
modeling approach is to use diffusion models. However, these have mainly been
used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating
relatively low sampling rate signals. In this work, we propose a high-fidelity
multi-band diffusion-based framework that generates any type of audio modality
(e.g., speech, music, environmental sounds) from low-bitrate discrete
representations. At equal bit rate, the proposed approach outperforms
state-of-the-art generative techniques in terms of perceptual quality. Training
and, evaluation code, along with audio samples, are available on the
facebookresearch/audiocraft Github page.