AudioSR: Super-resolução de Áudio Versátil em Escala
AudioSR: Versatile Audio Super-resolution at Scale
September 13, 2023
Autores: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI
Resumo
A super-resolução de áudio é uma tarefa fundamental que prevê componentes de alta frequência para áudio de baixa resolução, melhorando a qualidade do áudio em aplicações digitais. Métodos anteriores têm limitações, como o escopo restrito de tipos de áudio (por exemplo, música, fala) e configurações específicas de largura de banda que podem ser tratadas (por exemplo, 4kHz a 8kHz). Neste artigo, introduzimos um modelo generativo baseado em difusão, o AudioSR, que é capaz de realizar super-resolução de áudio robusta em diversos tipos de áudio, incluindo efeitos sonoros, música e fala. Especificamente, o AudioSR pode aumentar a resolução de qualquer sinal de áudio de entrada dentro da faixa de largura de banda de 2kHz a 16kHz para um sinal de áudio de alta resolução com largura de banda de 24kHz e taxa de amostragem de 48kHz. Uma avaliação objetiva extensa em vários benchmarks de super-resolução de áudio demonstra os resultados robustos alcançados pelo modelo proposto. Além disso, nossa avaliação subjetiva mostra que o AudioSR pode atuar como um módulo plug-and-play para melhorar a qualidade de geração de uma ampla gama de modelos generativos de áudio, incluindo AudioLDM, Fastspeech2 e MusicGen. Nosso código e demonstração estão disponíveis em https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.