ChatPaper.aiChatPaper

Des jetons discrets à l'audio haute fidélité grâce à la diffusion multi-bandes

From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion

August 2, 2023
papers.authors: Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve, Alexandre Défossez
cs.AI

papers.abstract

Les modèles génératifs profonds peuvent produire des audios de haute fidélité conditionnés par divers types de représentations (par exemple, des mél-spectrogrammes, des coefficients cepstraux sur l'échelle de Mel (MFCC)). Récemment, de tels modèles ont été utilisés pour synthétiser des formes d'onde audio conditionnées par des représentations hautement compressées. Bien que ces méthodes produisent des résultats impressionnants, elles ont tendance à générer des artefacts audibles lorsque le conditionnement est défectueux ou imparfait. Une approche alternative de modélisation consiste à utiliser des modèles de diffusion. Cependant, ceux-ci ont principalement été utilisés comme vocodeurs de parole (c'est-à-dire conditionnés par des mél-spectrogrammes) ou pour générer des signaux à taux d'échantillonnage relativement faible. Dans ce travail, nous proposons un cadre multi-bandes basé sur la diffusion, capable de générer tout type de modalité audio (par exemple, parole, musique, sons environnementaux) à partir de représentations discrètes à faible débit binaire. À débit binaire égal, l'approche proposée surpasse les techniques génératives de pointe en termes de qualité perceptuelle. Le code d'entraînement et d'évaluation, ainsi que des échantillons audio, sont disponibles sur la page Github facebookresearch/audiocraft.
English
Deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used to synthesize audio waveforms conditioned on highly compressed representations. Although such methods produce impressive results, they are prone to generate audible artifacts when the conditioning is flawed or imperfect. An alternative modeling approach is to use diffusion models. However, these have mainly been used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating relatively low sampling rate signals. In this work, we propose a high-fidelity multi-band diffusion-based framework that generates any type of audio modality (e.g., speech, music, environmental sounds) from low-bitrate discrete representations. At equal bit rate, the proposed approach outperforms state-of-the-art generative techniques in terms of perceptual quality. Training and, evaluation code, along with audio samples, are available on the facebookresearch/audiocraft Github page.
PDF50December 15, 2024