AudioSR: Superresolución de Audio Versátil a Gran Escala

AudioSR: Versatile Audio Super-resolution at Scale

September 13, 2023
Autores: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI

Resumen

La superresolución de audio es una tarea fundamental que predice componentes de alta frecuencia para audio de baja resolución, mejorando la calidad del audio en aplicaciones digitales. Los métodos anteriores presentan limitaciones, como el alcance restringido de tipos de audio (por ejemplo, música, voz) y configuraciones específicas de ancho de banda que pueden manejar (por ejemplo, de 4 kHz a 8 kHz). En este artículo, presentamos un modelo generativo basado en difusión, AudioSR, capaz de realizar superresolución de audio robusta en diversos tipos de audio, incluyendo efectos de sonido, música y voz. Específicamente, AudioSR puede aumentar la resolución de cualquier señal de audio de entrada dentro del rango de ancho de banda de 2 kHz a 16 kHz a una señal de audio de alta resolución con un ancho de banda de 24 kHz y una tasa de muestreo de 48 kHz. Una evaluación objetiva exhaustiva en varios puntos de referencia de superresolución de audio demuestra los sólidos resultados alcanzados por el modelo propuesto. Además, nuestra evaluación subjetiva muestra que AudioSR puede funcionar como un módulo plug-and-play para mejorar la calidad de generación de una amplia gama de modelos generativos de audio, incluyendo AudioLDM, Fastspeech2 y MusicGen. Nuestro código y demostración están disponibles en https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency components for low-resolution audio, enhancing audio quality in digital applications. Previous methods have limitations such as the limited scope of audio types (e.g., music, speech) and specific bandwidth settings they can handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based generative model, AudioSR, that is capable of performing robust audio super-resolution on versatile audio types, including sound effects, music, and speech. Specifically, AudioSR can upsample any input audio signal within the bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on various audio super-resolution benchmarks demonstrates the strong result achieved by the proposed model. In addition, our subjective evaluation shows that AudioSR can acts as a plug-and-play module to enhance the generation quality of a wide range of audio generative models, including AudioLDM, Fastspeech2, and MusicGen. Our code and demo are available at https://audioldm.github.io/audiosr.
PDF285December 15, 2024