ChatPaper.aiChatPaper

AudioSR: Super-risoluzione audio versatile su larga scala

AudioSR: Versatile Audio Super-resolution at Scale

September 13, 2023
Autori: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI

Abstract

La super-risoluzione audio è un compito fondamentale che prevede la predizione di componenti ad alta frequenza per audio a bassa risoluzione, migliorando la qualità del suono nelle applicazioni digitali. I metodi precedenti presentano limitazioni come la gamma ristretta di tipi di audio gestibili (ad esempio, musica, parlato) e le specifiche impostazioni di banda che possono affrontare (ad esempio, da 4kHz a 8kHz). In questo articolo, introduciamo un modello generativo basato su diffusione, AudioSR, in grado di eseguire una robusta super-risoluzione audio su una varietà di tipi di audio, inclusi effetti sonori, musica e parlato. Nello specifico, AudioSR può aumentare la risoluzione di qualsiasi segnale audio in ingresso entro un intervallo di banda da 2kHz a 16kHz, producendo un segnale audio ad alta risoluzione con una banda di 24kHz e una frequenza di campionamento di 48kHz. Un'ampia valutazione oggettiva su vari benchmark di super-risoluzione audio dimostra i risultati significativi ottenuti dal modello proposto. Inoltre, la nostra valutazione soggettiva mostra che AudioSR può fungere da modulo plug-and-play per migliorare la qualità di generazione di un'ampia gamma di modelli generativi audio, tra cui AudioLDM, Fastspeech2 e MusicGen. Il nostro codice e la demo sono disponibili all'indirizzo https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency components for low-resolution audio, enhancing audio quality in digital applications. Previous methods have limitations such as the limited scope of audio types (e.g., music, speech) and specific bandwidth settings they can handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based generative model, AudioSR, that is capable of performing robust audio super-resolution on versatile audio types, including sound effects, music, and speech. Specifically, AudioSR can upsample any input audio signal within the bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on various audio super-resolution benchmarks demonstrates the strong result achieved by the proposed model. In addition, our subjective evaluation shows that AudioSR can acts as a plug-and-play module to enhance the generation quality of a wide range of audio generative models, including AudioLDM, Fastspeech2, and MusicGen. Our code and demo are available at https://audioldm.github.io/audiosr.
PDF285December 15, 2024