AudioSR: Superresolución de Audio Versátil a Gran Escala
AudioSR: Versatile Audio Super-resolution at Scale
September 13, 2023
Autores: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI
Resumen
La superresolución de audio es una tarea fundamental que predice componentes de alta frecuencia para audio de baja resolución, mejorando la calidad del audio en aplicaciones digitales. Los métodos anteriores presentan limitaciones, como el alcance restringido de tipos de audio (por ejemplo, música, voz) y configuraciones específicas de ancho de banda que pueden manejar (por ejemplo, de 4 kHz a 8 kHz). En este artículo, presentamos un modelo generativo basado en difusión, AudioSR, capaz de realizar superresolución de audio robusta en diversos tipos de audio, incluyendo efectos de sonido, música y voz. Específicamente, AudioSR puede aumentar la resolución de cualquier señal de audio de entrada dentro del rango de ancho de banda de 2 kHz a 16 kHz a una señal de audio de alta resolución con un ancho de banda de 24 kHz y una tasa de muestreo de 48 kHz. Una evaluación objetiva exhaustiva en varios puntos de referencia de superresolución de audio demuestra los sólidos resultados alcanzados por el modelo propuesto. Además, nuestra evaluación subjetiva muestra que AudioSR puede funcionar como un módulo plug-and-play para mejorar la calidad de generación de una amplia gama de modelos generativos de audio, incluyendo AudioLDM, Fastspeech2 y MusicGen. Nuestro código y demostración están disponibles en https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.