MusicHiFi: Быстрое стерео вокодирование высокой точности.
MusicHiFi: Fast High-Fidelity Stereo Vocoding
March 15, 2024
Авторы: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI
Аннотация
Модели генерации аудио и музыки на основе диффузии обычно создают музыку, конструируя изображение звука (например, мел-спектрограмму) и затем преобразуя его в аудио с помощью модели восстановления фазы или вокодера. Типичные вокодеры, однако, производят монофоническое аудио с более низким разрешением (например, 16-24 кГц), что ограничивает их эффективность. Мы предлагаем MusicHiFi - эффективный стереофонический вокодер высокой верности. Наш метод использует каскад из трех генеративно-состязательных сетей (GAN), которые преобразуют низкоразрешенные мел-спектрограммы в аудио, повышают разрешение аудио путем расширения полосы пропускания и преобразуют в стереофоническое аудио. По сравнению с предыдущими работами, мы предлагаем 1) унифицированную архитектуру генератора и дискриминатора на основе GAN и процедуру обучения для каждого этапа нашего каскада, 2) новый быстрый модуль расширения полосы пропускания, совместимый с быстрым понижением разрешения, и 3) новый быстрый апмиксер монофонии в стерео, обеспечивающий сохранение монофонического контента в выходных данных. Мы оцениваем наш подход с помощью объективных и субъективных прослушиваний и обнаруживаем, что наш подход обеспечивает сравнимое или лучшее качество аудио, лучший контроль пространственной ориентации и значительно более быструю скорость вывода по сравнению с предыдущими работами. Примеры звучания доступны на https://MusicHiFi.github.io/web/.
English
Diffusion-based audio and music generation models commonly generate music by
constructing an image representation of audio (e.g., a mel-spectrogram) and
then converting it to audio using a phase reconstruction model or vocoder.
Typical vocoders, however, produce monophonic audio at lower resolutions (e.g.,
16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an
efficient high-fidelity stereophonic vocoder. Our method employs a cascade of
three generative adversarial networks (GANs) that convert low-resolution
mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth
expansion, and upmixes to stereophonic audio. Compared to previous work, we
propose 1) a unified GAN-based generator and discriminator architecture and
training procedure for each stage of our cascade, 2) a new fast, near
downsampling-compatible bandwidth extension module, and 3) a new fast
downmix-compatible mono-to-stereo upmixer that ensures the preservation of
monophonic content in the output. We evaluate our approach using both objective
and subjective listening tests and find our approach yields comparable or
better audio quality, better spatialization control, and significantly faster
inference speed compared to past work. Sound examples are at
https://MusicHiFi.github.io/web/.Summary
AI-Generated Summary