AudioSR: Универсальное повышение качества аудио в масштабе
AudioSR: Versatile Audio Super-resolution at Scale
September 13, 2023
Авторы: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
cs.AI
Аннотация
Аудио супер-разрешение является фундаментальной задачей, которая предсказывает высокочастотные компоненты для низкокачественного аудио, улучшая качество звука в цифровых приложениях. Предыдущие методы имеют ограничения, такие как узкий спектр типов аудио (например, музыка, речь) и специфические настройки полосы пропускания, с которыми они могут работать (например, от 4 кГц до 8 кГц). В данной статье мы представляем генеративную модель на основе диффузии, AudioSR, которая способна выполнять устойчивое аудио супер-разрешение для различных типов аудио, включая звуковые эффекты, музыку и речь. В частности, AudioSR может повышать частоту дискретизации любого входного аудиосигнала в диапазоне полосы пропускания от 2 кГц до 16 кГц до высококачественного аудиосигнала с полосой пропускания 24 кГц и частотой дискретизации 48 кГц. Обширная объективная оценка на различных тестах аудио супер-разрешения демонстрирует высокие результаты, достигнутые предложенной моделью. Кроме того, наша субъективная оценка показывает, что AudioSR может использоваться как модуль plug-and-play для улучшения качества генерации широкого спектра аудио генеративных моделей, включая AudioLDM, Fastspeech2 и MusicGen. Наш код и демонстрация доступны по адресу https://audioldm.github.io/audiosr.
English
Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.