MusicHiFi : Synthèse vocale stéréo haute fidélité rapide
MusicHiFi: Fast High-Fidelity Stereo Vocoding
March 15, 2024
Auteurs: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI
Résumé
Les modèles de génération audio et musicale basés sur la diffusion produisent généralement de la musique en construisant une représentation visuelle de l'audio (par exemple, un mél-spectrogramme), puis en la convertissant en audio à l'aide d'un modèle de reconstruction de phase ou d'un vocodeur. Cependant, les vocodeurs classiques produisent un audio monophonique à des résolutions inférieures (par exemple, 16-24 kHz), ce qui limite leur efficacité. Nous proposons MusicHiFi — un vocodeur stéréophonique haute fidélité et efficace. Notre méthode utilise une cascade de trois réseaux antagonistes génératifs (GAN) qui convertissent des mél-spectrogrammes basse résolution en audio, augmentent la résolution audio via une extension de bande passante, et transforment l'audio en stéréo. Par rapport aux travaux précédents, nous proposons 1) une architecture unifiée de générateur et de discriminateur basée sur les GAN, ainsi qu'une procédure d'entraînement pour chaque étape de notre cascade, 2) un nouveau module d'extension de bande passante rapide et quasi compatible avec le sous-échantillonnage, et 3) un nouvel upmixer mono-vers-stéréo rapide et compatible avec le downmix, garantissant la préservation du contenu monophonique en sortie. Nous évaluons notre approche à l'aide de tests d'écoute objectifs et subjectifs, et constatons qu'elle offre une qualité audio comparable ou supérieure, un meilleur contrôle de la spatialisation, et une vitesse d'inférence significativement plus rapide par rapport aux travaux précédents. Des exemples sonores sont disponibles sur https://MusicHiFi.github.io/web/.
English
Diffusion-based audio and music generation models commonly generate music by
constructing an image representation of audio (e.g., a mel-spectrogram) and
then converting it to audio using a phase reconstruction model or vocoder.
Typical vocoders, however, produce monophonic audio at lower resolutions (e.g.,
16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an
efficient high-fidelity stereophonic vocoder. Our method employs a cascade of
three generative adversarial networks (GANs) that convert low-resolution
mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth
expansion, and upmixes to stereophonic audio. Compared to previous work, we
propose 1) a unified GAN-based generator and discriminator architecture and
training procedure for each stage of our cascade, 2) a new fast, near
downsampling-compatible bandwidth extension module, and 3) a new fast
downmix-compatible mono-to-stereo upmixer that ensures the preservation of
monophonic content in the output. We evaluate our approach using both objective
and subjective listening tests and find our approach yields comparable or
better audio quality, better spatialization control, and significantly faster
inference speed compared to past work. Sound examples are at
https://MusicHiFi.github.io/web/.Summary
AI-Generated Summary