MusicHiFi: Vocoder Stereo ad Alta Fedeltà Rapido
MusicHiFi: Fast High-Fidelity Stereo Vocoding
March 15, 2024
Autori: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI
Abstract
I modelli di generazione audio e musicale basati su diffusione comunemente producono musica costruendo una rappresentazione immagine dell'audio (ad esempio, uno spettrogramma mel) e poi convertendolo in audio utilizzando un modello di ricostruzione della fase o un vocoder. I vocoder tipici, tuttavia, producono audio monofonico a risoluzioni inferiori (ad esempio, 16-24 kHz), il che ne limita l'efficacia. Proponiamo MusicHiFi -- un vocoder stereofonico ad alta fedeltà efficiente. Il nostro metodo impiega una cascata di tre reti generative avversarie (GAN) che convertono spettrogrammi mel a bassa risoluzione in audio, aumentano la risoluzione audio tramite espansione della larghezza di banda, e convertono l'audio in stereofonico. Rispetto ai lavori precedenti, proponiamo 1) un'architettura e una procedura di addestramento unificata basata su GAN per generatore e discriminatore in ogni fase della nostra cascata, 2) un nuovo modulo di estensione della larghezza di banda veloce e quasi compatibile con il downsampling, e 3) un nuovo upmixer mono-to-stereo veloce e compatibile con il downmix che garantisce la preservazione del contenuto monofonico nell'output. Valutiamo il nostro approccio utilizzando sia test oggettivi che soggettivi di ascolto e troviamo che il nostro approccio produce una qualità audio comparabile o migliore, un migliore controllo della spazializzazione, e una velocità di inferenza significativamente più veloce rispetto ai lavori precedenti. Esempi sonori sono disponibili su https://MusicHiFi.github.io/web/.
English
Diffusion-based audio and music generation models commonly generate music by
constructing an image representation of audio (e.g., a mel-spectrogram) and
then converting it to audio using a phase reconstruction model or vocoder.
Typical vocoders, however, produce monophonic audio at lower resolutions (e.g.,
16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an
efficient high-fidelity stereophonic vocoder. Our method employs a cascade of
three generative adversarial networks (GANs) that convert low-resolution
mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth
expansion, and upmixes to stereophonic audio. Compared to previous work, we
propose 1) a unified GAN-based generator and discriminator architecture and
training procedure for each stage of our cascade, 2) a new fast, near
downsampling-compatible bandwidth extension module, and 3) a new fast
downmix-compatible mono-to-stereo upmixer that ensures the preservation of
monophonic content in the output. We evaluate our approach using both objective
and subjective listening tests and find our approach yields comparable or
better audio quality, better spatialization control, and significantly faster
inference speed compared to past work. Sound examples are at
https://MusicHiFi.github.io/web/.