ChatPaper.aiChatPaper

Van discrete tokens naar hoogwaardige audio met behulp van multi-band diffusie

From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion

August 2, 2023
Auteurs: Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve, Alexandre Défossez
cs.AI

Samenvatting

Diepe generatieve modellen kunnen hoogwaardige audio genereren die is geconditioneerd op verschillende soorten representaties (bijvoorbeeld mel-spectrogrammen, Mel-frequency Cepstral Coefficients (MFCC)). Recentelijk zijn dergelijke modellen gebruikt om audiogolven te synthetiseren die zijn geconditioneerd op sterk gecomprimeerde representaties. Hoewel dergelijke methoden indrukwekkende resultaten opleveren, zijn ze gevoelig voor het genereren van hoorbare artefacten wanneer de conditionering gebrekkig of onvolmaakt is. Een alternatieve modelleerbenadering is het gebruik van diffusiemodellen. Deze zijn echter voornamelijk gebruikt als spraakvocoders (d.w.z. geconditioneerd op mel-spectrogrammen) of voor het genereren van signalen met een relatief lage samplefrequentie. In dit werk stellen we een hoogwaardig, op diffusie gebaseerd framework voor met meerdere banden dat elk type audiomodaliteit (bijvoorbeeld spraak, muziek, omgevingsgeluiden) genereert uit discrete representaties met een lage bitrate. Bij gelijke bitrate overtreft de voorgestelde aanpak state-of-the-art generatieve technieken wat betreft perceptuele kwaliteit. Trainings- en evaluatiecode, samen met audiovoorbeelden, zijn beschikbaar op de facebookresearch/audiocraft Github-pagina.
English
Deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used to synthesize audio waveforms conditioned on highly compressed representations. Although such methods produce impressive results, they are prone to generate audible artifacts when the conditioning is flawed or imperfect. An alternative modeling approach is to use diffusion models. However, these have mainly been used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating relatively low sampling rate signals. In this work, we propose a high-fidelity multi-band diffusion-based framework that generates any type of audio modality (e.g., speech, music, environmental sounds) from low-bitrate discrete representations. At equal bit rate, the proposed approach outperforms state-of-the-art generative techniques in terms of perceptual quality. Training and, evaluation code, along with audio samples, are available on the facebookresearch/audiocraft Github page.
PDF50February 8, 2026