AudioSR : Super-résolution audio polyvalente à grande échelle
AudioSR: Versatile Audio Super-resolution at Scale
September 13, 2023
Auteurs: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI
Résumé
La super-résolution audio est une tâche fondamentale qui consiste à prédire les composantes haute fréquence pour des signaux audio de basse résolution, améliorant ainsi la qualité audio dans les applications numériques. Les méthodes précédentes présentent des limitations, notamment en termes de types d'audio pris en charge (par exemple, musique, parole) et de plages de bande passante spécifiques qu'elles peuvent traiter (par exemple, de 4 kHz à 8 kHz). Dans cet article, nous présentons AudioSR, un modèle génératif basé sur la diffusion, capable de réaliser une super-résolution audio robuste sur une variété de types audio, incluant les effets sonores, la musique et la parole. Plus précisément, AudioSR peut suréchantillonner tout signal audio d'entrée dans la plage de bande passante de 2 kHz à 16 kHz pour obtenir un signal audio haute résolution à 24 kHz de bande passante avec un taux d'échantillonnage de 48 kHz. Une évaluation objective approfondie sur divers benchmarks de super-résolution audio démontre les résultats solides obtenus par le modèle proposé. De plus, notre évaluation subjective montre qu'AudioSR peut fonctionner comme un module plug-and-play pour améliorer la qualité de génération d'un large éventail de modèles génératifs audio, notamment AudioLDM, Fastspeech2 et MusicGen. Notre code et une démonstration sont disponibles à l'adresse https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.