AudioSR: Super-risoluzione audio versatile su larga scala
AudioSR: Versatile Audio Super-resolution at Scale
September 13, 2023
Autori: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI
Abstract
La super-risoluzione audio è un compito fondamentale che prevede la predizione di componenti ad alta frequenza per audio a bassa risoluzione, migliorando la qualità del suono nelle applicazioni digitali. I metodi precedenti presentano limitazioni come la gamma ristretta di tipi di audio gestibili (ad esempio, musica, parlato) e le specifiche impostazioni di banda che possono affrontare (ad esempio, da 4kHz a 8kHz). In questo articolo, introduciamo un modello generativo basato su diffusione, AudioSR, in grado di eseguire una robusta super-risoluzione audio su una varietà di tipi di audio, inclusi effetti sonori, musica e parlato. Nello specifico, AudioSR può aumentare la risoluzione di qualsiasi segnale audio in ingresso entro un intervallo di banda da 2kHz a 16kHz, producendo un segnale audio ad alta risoluzione con una banda di 24kHz e una frequenza di campionamento di 48kHz. Un'ampia valutazione oggettiva su vari benchmark di super-risoluzione audio dimostra i risultati significativi ottenuti dal modello proposto. Inoltre, la nostra valutazione soggettiva mostra che AudioSR può fungere da modulo plug-and-play per migliorare la qualità di generazione di un'ampia gamma di modelli generativi audio, tra cui AudioLDM, Fastspeech2 e MusicGen. Il nostro codice e la demo sono disponibili all'indirizzo https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.