ChatPaper.aiChatPaper

De Tokens Discretos para Áudio de Alta Fidelidade Usando Difusão Multibanda

From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion

August 2, 2023
Autores: Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve, Alexandre Défossez
cs.AI

Resumo

Modelos generativos profundos podem gerar áudio de alta fidelidade condicionado a diversos tipos de representações (por exemplo, mel-espectrogramas, coeficientes cepstrais em frequência Mel (MFCC)). Recentemente, tais modelos têm sido usados para sintetizar formas de onda de áudio condicionadas a representações altamente comprimidas. Embora esses métodos produzam resultados impressionantes, eles tendem a gerar artefatos audíveis quando o condicionamento é falho ou imperfeito. Uma abordagem alternativa de modelagem é o uso de modelos de difusão. No entanto, esses modelos têm sido principalmente utilizados como vocoders de fala (ou seja, condicionados a mel-espectrogramas) ou para gerar sinais com taxa de amostragem relativamente baixa. Neste trabalho, propomos uma estrutura baseada em difusão multibanda de alta fidelidade que gera qualquer tipo de modalidade de áudio (por exemplo, fala, música, sons ambientais) a partir de representações discretas de baixa taxa de bits. Em taxas de bits iguais, a abordagem proposta supera as técnicas generativas de última geração em termos de qualidade perceptual. O código de treinamento e avaliação, juntamente com amostras de áudio, estão disponíveis na página do Github facebookresearch/audiocraft.
English
Deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used to synthesize audio waveforms conditioned on highly compressed representations. Although such methods produce impressive results, they are prone to generate audible artifacts when the conditioning is flawed or imperfect. An alternative modeling approach is to use diffusion models. However, these have mainly been used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating relatively low sampling rate signals. In this work, we propose a high-fidelity multi-band diffusion-based framework that generates any type of audio modality (e.g., speech, music, environmental sounds) from low-bitrate discrete representations. At equal bit rate, the proposed approach outperforms state-of-the-art generative techniques in terms of perceptual quality. Training and, evaluation code, along with audio samples, are available on the facebookresearch/audiocraft Github page.
PDF50February 8, 2026