ChatPaper.aiChatPaper

Da token discreti ad audio ad alta fedeltà utilizzando la diffusione multi-banda

From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion

August 2, 2023
Autori: Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve, Alexandre Défossez
cs.AI

Abstract

I modelli generativi profondi possono generare audio ad alta fedeltà condizionati da vari tipi di rappresentazioni (ad esempio, mel-spettrogrammi, Coefficienti Cepstrali a Frequenza Mel (MFCC)). Recentemente, tali modelli sono stati utilizzati per sintetizzare forme d'onda audio condizionate su rappresentazioni altamente compresse. Sebbene questi metodi producano risultati impressionanti, sono inclini a generare artefatti udibili quando il condizionamento è difettoso o imperfetto. Un approccio alternativo di modellazione è l'uso di modelli di diffusione. Tuttavia, questi sono stati principalmente utilizzati come vocoder vocali (cioè, condizionati su mel-spettrogrammi) o per generare segnali con una frequenza di campionamento relativamente bassa. In questo lavoro, proponiamo un framework basato sulla diffusione multi-banda ad alta fedeltà che genera qualsiasi tipo di modalità audio (ad esempio, voce, musica, suoni ambientali) da rappresentazioni discrete a basso bitrate. A parità di bit rate, l'approccio proposto supera le tecniche generative più avanzate in termini di qualità percettiva. Il codice di addestramento e valutazione, insieme ai campioni audio, è disponibile sulla pagina Github facebookresearch/audiocraft.
English
Deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used to synthesize audio waveforms conditioned on highly compressed representations. Although such methods produce impressive results, they are prone to generate audible artifacts when the conditioning is flawed or imperfect. An alternative modeling approach is to use diffusion models. However, these have mainly been used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating relatively low sampling rate signals. In this work, we propose a high-fidelity multi-band diffusion-based framework that generates any type of audio modality (e.g., speech, music, environmental sounds) from low-bitrate discrete representations. At equal bit rate, the proposed approach outperforms state-of-the-art generative techniques in terms of perceptual quality. Training and, evaluation code, along with audio samples, are available on the facebookresearch/audiocraft Github page.
PDF50February 8, 2026