MusicHiFi: Vocoder Stereo ad Alta Fedeltà Rapido

Abstract

I modelli di generazione audio e musicale basati su diffusione comunemente producono musica costruendo una rappresentazione immagine dell'audio (ad esempio, uno spettrogramma mel) e poi convertendolo in audio utilizzando un modello di ricostruzione della fase o un vocoder. I vocoder tipici, tuttavia, producono audio monofonico a risoluzioni inferiori (ad esempio, 16-24 kHz), il che ne limita l'efficacia. Proponiamo MusicHiFi -- un vocoder stereofonico ad alta fedeltà efficiente. Il nostro metodo impiega una cascata di tre reti generative avversarie (GAN) che convertono spettrogrammi mel a bassa risoluzione in audio, aumentano la risoluzione audio tramite espansione della larghezza di banda, e convertono l'audio in stereofonico. Rispetto ai lavori precedenti, proponiamo 1) un'architettura e una procedura di addestramento unificata basata su GAN per generatore e discriminatore in ogni fase della nostra cascata, 2) un nuovo modulo di estensione della larghezza di banda veloce e quasi compatibile con il downsampling, e 3) un nuovo upmixer mono-to-stereo veloce e compatibile con il downmix che garantisce la preservazione del contenuto monofonico nell'output. Valutiamo il nostro approccio utilizzando sia test oggettivi che soggettivi di ascolto e troviamo che il nostro approccio produce una qualità audio comparabile o migliore, un migliore controllo della spazializzazione, e una velocità di inferenza significativamente più veloce rispetto ai lavori precedenti. Esempi sonori sono disponibili su https://MusicHiFi.github.io/web/.

English

Diffusion-based audio and music generation models commonly generate music by constructing an image representation of audio (e.g., a mel-spectrogram) and then converting it to audio using a phase reconstruction model or vocoder. Typical vocoders, however, produce monophonic audio at lower resolutions (e.g., 16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an efficient high-fidelity stereophonic vocoder. Our method employs a cascade of three generative adversarial networks (GANs) that convert low-resolution mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth expansion, and upmixes to stereophonic audio. Compared to previous work, we propose 1) a unified GAN-based generator and discriminator architecture and training procedure for each stage of our cascade, 2) a new fast, near downsampling-compatible bandwidth extension module, and 3) a new fast downmix-compatible mono-to-stereo upmixer that ensures the preservation of monophonic content in the output. We evaluate our approach using both objective and subjective listening tests and find our approach yields comparable or better audio quality, better spatialization control, and significantly faster inference speed compared to past work. Sound examples are at https://MusicHiFi.github.io/web/.

MusicHiFi: Vocoder Stereo ad Alta Fedeltà Rapido

MusicHiFi: Fast High-Fidelity Stereo Vocoding

Abstract

Support