AudioSR: Vielseitige Audio-Superauflösung im großen Maßstab

AudioSR: Versatile Audio Super-resolution at Scale

September 13, 2023
Autoren: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI

Zusammenfassung

Audio-Super-Resolution ist eine grundlegende Aufgabe, bei der hochfrequente Komponenten für niederauflösende Audiodaten vorhergesagt werden, um die Audioqualität in digitalen Anwendungen zu verbessern. Bisherige Methoden weisen Einschränkungen auf, wie den begrenzten Umfang von Audiotypen (z. B. Musik, Sprache) und spezifische Bandbreiteneinstellungen, die sie verarbeiten können (z. B. 4 kHz bis 8 kHz). In diesem Artikel stellen wir ein diffusionsbasiertes generatives Modell vor, AudioSR, das in der Lage ist, robuste Audio-Super-Resolution für verschiedene Audiotypen durchzuführen, einschließlich Soundeffekte, Musik und Sprache. Insbesondere kann AudioSR jedes Eingangs-Audiosignal im Bandbreitenbereich von 2 kHz bis 16 kHz zu einem hochauflösenden Audiosignal mit einer Bandbreite von 24 kHz und einer Abtastrate von 48 kHz hochskalieren. Umfangreiche objektive Bewertungen auf verschiedenen Audio-Super-Resolution-Benchmarks zeigen die starken Ergebnisse des vorgeschlagenen Modells. Darüber hinaus zeigt unsere subjektive Bewertung, dass AudioSR als Plug-and-Play-Modul fungieren kann, um die Generierungsqualität einer Vielzahl von Audio-Generierungsmodellen zu verbessern, darunter AudioLDM, Fastspeech2 und MusicGen. Unser Code und unsere Demo sind verfügbar unter https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency components for low-resolution audio, enhancing audio quality in digital applications. Previous methods have limitations such as the limited scope of audio types (e.g., music, speech) and specific bandwidth settings they can handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based generative model, AudioSR, that is capable of performing robust audio super-resolution on versatile audio types, including sound effects, music, and speech. Specifically, AudioSR can upsample any input audio signal within the bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on various audio super-resolution benchmarks demonstrates the strong result achieved by the proposed model. In addition, our subjective evaluation shows that AudioSR can acts as a plug-and-play module to enhance the generation quality of a wide range of audio generative models, including AudioLDM, Fastspeech2, and MusicGen. Our code and demo are available at https://audioldm.github.io/audiosr.
PDF285December 15, 2024