AudioSR: Vielseitige Audio-Superauflösung im großen Maßstab
AudioSR: Versatile Audio Super-resolution at Scale
September 13, 2023
Autoren: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI
Zusammenfassung
Audio-Super-Resolution ist eine grundlegende Aufgabe, bei der hochfrequente Komponenten für niederauflösende Audiodaten vorhergesagt werden, um die Audioqualität in digitalen Anwendungen zu verbessern. Bisherige Methoden weisen Einschränkungen auf, wie den begrenzten Umfang von Audiotypen (z. B. Musik, Sprache) und spezifische Bandbreiteneinstellungen, die sie verarbeiten können (z. B. 4 kHz bis 8 kHz). In diesem Artikel stellen wir ein diffusionsbasiertes generatives Modell vor, AudioSR, das in der Lage ist, robuste Audio-Super-Resolution für verschiedene Audiotypen durchzuführen, einschließlich Soundeffekte, Musik und Sprache. Insbesondere kann AudioSR jedes Eingangs-Audiosignal im Bandbreitenbereich von 2 kHz bis 16 kHz zu einem hochauflösenden Audiosignal mit einer Bandbreite von 24 kHz und einer Abtastrate von 48 kHz hochskalieren. Umfangreiche objektive Bewertungen auf verschiedenen Audio-Super-Resolution-Benchmarks zeigen die starken Ergebnisse des vorgeschlagenen Modells. Darüber hinaus zeigt unsere subjektive Bewertung, dass AudioSR als Plug-and-Play-Modul fungieren kann, um die Generierungsqualität einer Vielzahl von Audio-Generierungsmodellen zu verbessern, darunter AudioLDM, Fastspeech2 und MusicGen. Unser Code und unsere Demo sind verfügbar unter https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.