MusicHiFi: Schnelles Hochwertiges Stereo-Vocoding
MusicHiFi: Fast High-Fidelity Stereo Vocoding
March 15, 2024
Autoren: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI
Zusammenfassung
Diffusionsbasierte Modelle zur Audio- und Musikgenerierung erzeugen häufig Musik, indem sie eine Bildrepräsentation des Audios konstruieren (z. B. ein Mel-Spektrogramm) und es dann mithilfe eines Phasenrekonstruktionsmodells oder Vokoders in Audio umwandeln. Typische Vokoder erzeugen jedoch monophone Audiosignale mit niedrigeren Auflösungen (z. B. 16-24 kHz), was ihre Effektivität einschränkt. Wir schlagen MusicHiFi vor - einen effizienten hochwertigen stereophonen Vokoder. Unsere Methode verwendet eine Kaskade von drei generativen gegnerischen Netzwerken (GANs), die niedrigauflösende Mel-Spektrogramme in Audio umwandeln, auf hochauflösendes Audio mittels Bandbreitenerweiterung hochskalieren und zu stereophonen Audiosignalen aufmischen. Im Vergleich zu früheren Arbeiten schlagen wir 1) eine vereinheitlichte GAN-basierte Generator- und Diskriminatorarchitektur sowie Schulungsverfahren für jeden Schritt unserer Kaskade vor, 2) ein neues schnelles, nahe am Downsampling-kompatibles Bandbreitenverlängerungsmodul und 3) einen neuen schnellen Downmix-kompatiblen Mono-zu-Stereo-Upmixer vor, der die Erhaltung des monophonen Inhalts in der Ausgabe sicherstellt. Wir bewerten unseren Ansatz anhand sowohl objektiver als auch subjektiver Hörtests und stellen fest, dass unser Ansatz vergleichbare oder bessere Audioqualität, bessere räumliche Kontrolle und signifikant schnellere Inferenzgeschwindigkeit im Vergleich zu früheren Arbeiten liefert. Klangbeispiele finden Sie unter https://MusicHiFi.github.io/web/.
English
Diffusion-based audio and music generation models commonly generate music by
constructing an image representation of audio (e.g., a mel-spectrogram) and
then converting it to audio using a phase reconstruction model or vocoder.
Typical vocoders, however, produce monophonic audio at lower resolutions (e.g.,
16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an
efficient high-fidelity stereophonic vocoder. Our method employs a cascade of
three generative adversarial networks (GANs) that convert low-resolution
mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth
expansion, and upmixes to stereophonic audio. Compared to previous work, we
propose 1) a unified GAN-based generator and discriminator architecture and
training procedure for each stage of our cascade, 2) a new fast, near
downsampling-compatible bandwidth extension module, and 3) a new fast
downmix-compatible mono-to-stereo upmixer that ensures the preservation of
monophonic content in the output. We evaluate our approach using both objective
and subjective listening tests and find our approach yields comparable or
better audio quality, better spatialization control, and significantly faster
inference speed compared to past work. Sound examples are at
https://MusicHiFi.github.io/web/.Summary
AI-Generated Summary