MusicHiFi : Synthèse vocale stéréo haute fidélité rapide

papers.abstract

Les modèles de génération audio et musicale basés sur la diffusion produisent généralement de la musique en construisant une représentation visuelle de l'audio (par exemple, un mél-spectrogramme), puis en la convertissant en audio à l'aide d'un modèle de reconstruction de phase ou d'un vocodeur. Cependant, les vocodeurs classiques produisent un audio monophonique à des résolutions inférieures (par exemple, 16-24 kHz), ce qui limite leur efficacité. Nous proposons MusicHiFi — un vocodeur stéréophonique haute fidélité et efficace. Notre méthode utilise une cascade de trois réseaux antagonistes génératifs (GAN) qui convertissent des mél-spectrogrammes basse résolution en audio, augmentent la résolution audio via une extension de bande passante, et transforment l'audio en stéréo. Par rapport aux travaux précédents, nous proposons 1) une architecture unifiée de générateur et de discriminateur basée sur les GAN, ainsi qu'une procédure d'entraînement pour chaque étape de notre cascade, 2) un nouveau module d'extension de bande passante rapide et quasi compatible avec le sous-échantillonnage, et 3) un nouvel upmixer mono-vers-stéréo rapide et compatible avec le downmix, garantissant la préservation du contenu monophonique en sortie. Nous évaluons notre approche à l'aide de tests d'écoute objectifs et subjectifs, et constatons qu'elle offre une qualité audio comparable ou supérieure, un meilleur contrôle de la spatialisation, et une vitesse d'inférence significativement plus rapide par rapport aux travaux précédents. Des exemples sonores sont disponibles sur https://MusicHiFi.github.io/web/.

English

Diffusion-based audio and music generation models commonly generate music by constructing an image representation of audio (e.g., a mel-spectrogram) and then converting it to audio using a phase reconstruction model or vocoder. Typical vocoders, however, produce monophonic audio at lower resolutions (e.g., 16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an efficient high-fidelity stereophonic vocoder. Our method employs a cascade of three generative adversarial networks (GANs) that convert low-resolution mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth expansion, and upmixes to stereophonic audio. Compared to previous work, we propose 1) a unified GAN-based generator and discriminator architecture and training procedure for each stage of our cascade, 2) a new fast, near downsampling-compatible bandwidth extension module, and 3) a new fast downmix-compatible mono-to-stereo upmixer that ensures the preservation of monophonic content in the output. We evaluate our approach using both objective and subjective listening tests and find our approach yields comparable or better audio quality, better spatialization control, and significantly faster inference speed compared to past work. Sound examples are at https://MusicHiFi.github.io/web/.

MusicHiFi : Synthèse vocale stéréo haute fidélité rapide

MusicHiFi: Fast High-Fidelity Stereo Vocoding

papers.abstract

Support