MusicHiFi: Schnelles Hochwertiges Stereo-Vocoding

Zusammenfassung

Diffusionsbasierte Modelle zur Audio- und Musikgenerierung erzeugen häufig Musik, indem sie eine Bildrepräsentation des Audios konstruieren (z. B. ein Mel-Spektrogramm) und es dann mithilfe eines Phasenrekonstruktionsmodells oder Vokoders in Audio umwandeln. Typische Vokoder erzeugen jedoch monophone Audiosignale mit niedrigeren Auflösungen (z. B. 16-24 kHz), was ihre Effektivität einschränkt. Wir schlagen MusicHiFi vor - einen effizienten hochwertigen stereophonen Vokoder. Unsere Methode verwendet eine Kaskade von drei generativen gegnerischen Netzwerken (GANs), die niedrigauflösende Mel-Spektrogramme in Audio umwandeln, auf hochauflösendes Audio mittels Bandbreitenerweiterung hochskalieren und zu stereophonen Audiosignalen aufmischen. Im Vergleich zu früheren Arbeiten schlagen wir 1) eine vereinheitlichte GAN-basierte Generator- und Diskriminatorarchitektur sowie Schulungsverfahren für jeden Schritt unserer Kaskade vor, 2) ein neues schnelles, nahe am Downsampling-kompatibles Bandbreitenverlängerungsmodul und 3) einen neuen schnellen Downmix-kompatiblen Mono-zu-Stereo-Upmixer vor, der die Erhaltung des monophonen Inhalts in der Ausgabe sicherstellt. Wir bewerten unseren Ansatz anhand sowohl objektiver als auch subjektiver Hörtests und stellen fest, dass unser Ansatz vergleichbare oder bessere Audioqualität, bessere räumliche Kontrolle und signifikant schnellere Inferenzgeschwindigkeit im Vergleich zu früheren Arbeiten liefert. Klangbeispiele finden Sie unter https://MusicHiFi.github.io/web/.

English

Diffusion-based audio and music generation models commonly generate music by constructing an image representation of audio (e.g., a mel-spectrogram) and then converting it to audio using a phase reconstruction model or vocoder. Typical vocoders, however, produce monophonic audio at lower resolutions (e.g., 16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an efficient high-fidelity stereophonic vocoder. Our method employs a cascade of three generative adversarial networks (GANs) that convert low-resolution mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth expansion, and upmixes to stereophonic audio. Compared to previous work, we propose 1) a unified GAN-based generator and discriminator architecture and training procedure for each stage of our cascade, 2) a new fast, near downsampling-compatible bandwidth extension module, and 3) a new fast downmix-compatible mono-to-stereo upmixer that ensures the preservation of monophonic content in the output. We evaluate our approach using both objective and subjective listening tests and find our approach yields comparable or better audio quality, better spatialization control, and significantly faster inference speed compared to past work. Sound examples are at https://MusicHiFi.github.io/web/.

MusicHiFi: Schnelles Hochwertiges Stereo-Vocoding

MusicHiFi: Fast High-Fidelity Stereo Vocoding

Zusammenfassung

Support