ChatPaper.aiChatPaper

De tokens discretos a audio de alta fidelidad mediante difusión multibanda

From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion

August 2, 2023
Autores: Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve, Alexandre Défossez
cs.AI

Resumen

Los modelos generativos profundos pueden generar audio de alta fidelidad condicionado a diversos tipos de representaciones (por ejemplo, mel-espectrogramas, coeficientes cepstrales en la frecuencia Mel (MFCC)). Recientemente, estos modelos se han utilizado para sintetizar formas de onda de audio condicionadas a representaciones altamente comprimidas. Aunque estos métodos producen resultados impresionantes, son propensos a generar artefactos audibles cuando el condicionamiento es defectuoso o imperfecto. Un enfoque alternativo de modelado es el uso de modelos de difusión. Sin embargo, estos se han utilizado principalmente como vocoders de voz (es decir, condicionados a mel-espectrogramas) o para generar señales con una tasa de muestreo relativamente baja. En este trabajo, proponemos un marco basado en difusión de múltiples bandas y alta fidelidad que genera cualquier tipo de modalidad de audio (por ejemplo, voz, música, sonidos ambientales) a partir de representaciones discretas de bajo bitrate. A igual tasa de bits, el enfoque propuesto supera a las técnicas generativas más avanzadas en términos de calidad perceptual. El código de entrenamiento y evaluación, junto con muestras de audio, están disponibles en la página de Github facebookresearch/audiocraft.
English
Deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used to synthesize audio waveforms conditioned on highly compressed representations. Although such methods produce impressive results, they are prone to generate audible artifacts when the conditioning is flawed or imperfect. An alternative modeling approach is to use diffusion models. However, these have mainly been used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating relatively low sampling rate signals. In this work, we propose a high-fidelity multi-band diffusion-based framework that generates any type of audio modality (e.g., speech, music, environmental sounds) from low-bitrate discrete representations. At equal bit rate, the proposed approach outperforms state-of-the-art generative techniques in terms of perceptual quality. Training and, evaluation code, along with audio samples, are available on the facebookresearch/audiocraft Github page.
PDF50December 15, 2024