AudioSR: スケーラブルで多用途なオーディオ超解像
AudioSR: Versatile Audio Super-resolution at Scale
September 13, 2023
著者: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI
要旨
オーディオ超解像は、低解像度のオーディオに対して高周波成分を予測し、デジタルアプリケーションにおける音質を向上させる基本的なタスクです。従来の手法では、扱えるオーディオの種類(例:音楽、音声)や特定の帯域設定(例:4kHzから8kHz)に制限がありました。本論文では、拡散モデルに基づく生成モデルであるAudioSRを紹介します。このモデルは、効果音、音楽、音声など、多様なオーディオタイプに対してロバストなオーディオ超解像を実行することができます。具体的には、AudioSRは2kHzから16kHzの帯域範囲内の任意の入力オーディオ信号を、48kHzのサンプリングレートで24kHz帯域の高解像度オーディオ信号にアップサンプリングすることができます。様々なオーディオ超解像ベンチマークでの広範な客観的評価により、提案モデルが達成した強力な結果が示されています。さらに、主観的評価では、AudioSRがプラグアンドプレイモジュールとして機能し、AudioLDM、Fastspeech2、MusicGenなど、幅広いオーディオ生成モデルの生成品質を向上させることができることが示されています。私たちのコードとデモはhttps://audioldm.github.io/audiosrで公開されています。
English
Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.