MusicHiFi: Snelle Hoogwaardige Stereovocodering
MusicHiFi: Fast High-Fidelity Stereo Vocoding
March 15, 2024
Auteurs: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI
Samenvatting
Diffusiegebaseerde audio- en muziekgeneratiemodellen genereren doorgaans muziek door een beeldrepresentatie van audio te construeren (bijvoorbeeld een mel-spectrogram) en deze vervolgens om te zetten naar audio met behulp van een fase-reconstructiemodel of een vocoder. Typische vocoders produceren echter monofonische audio bij lagere resoluties (bijvoorbeeld 16-24 kHz), wat hun effectiviteit beperkt. Wij stellen MusicHiFi voor – een efficiënte high-fidelity stereofonische vocoder. Onze methode maakt gebruik van een cascade van drie generatieve adversariële netwerken (GANs) die laagresolutie mel-spectrogrammen omzetten naar audio, upsamplen naar hoogresolutie audio via bandbreedte-uitbreiding, en upmixen naar stereofonische audio. In vergelijking met eerder werk stellen wij 1) een uniforme GAN-gebaseerde generator- en discriminatorarchitectuur en trainingsprocedure voor elke fase van onze cascade voor, 2) een nieuwe snelle, bijna downsampling-compatibele bandbreedte-uitbreidingsmodule, en 3) een nieuwe snelle downmix-compatibele mono-naar-stereo upmixer die ervoor zorgt dat monofonische inhoud in de output behouden blijft. We evalueren onze aanpak met zowel objectieve als subjectieve luistertests en concluderen dat onze aanpak vergelijkbare of betere audiokwaliteit, betere spatialisatiecontrole en aanzienlijk snellere inferentiesnelheid oplevert in vergelijking met eerder werk. Geluidvoorbeelden zijn te vinden op https://MusicHiFi.github.io/web/.
English
Diffusion-based audio and music generation models commonly generate music by
constructing an image representation of audio (e.g., a mel-spectrogram) and
then converting it to audio using a phase reconstruction model or vocoder.
Typical vocoders, however, produce monophonic audio at lower resolutions (e.g.,
16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an
efficient high-fidelity stereophonic vocoder. Our method employs a cascade of
three generative adversarial networks (GANs) that convert low-resolution
mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth
expansion, and upmixes to stereophonic audio. Compared to previous work, we
propose 1) a unified GAN-based generator and discriminator architecture and
training procedure for each stage of our cascade, 2) a new fast, near
downsampling-compatible bandwidth extension module, and 3) a new fast
downmix-compatible mono-to-stereo upmixer that ensures the preservation of
monophonic content in the output. We evaluate our approach using both objective
and subjective listening tests and find our approach yields comparable or
better audio quality, better spatialization control, and significantly faster
inference speed compared to past work. Sound examples are at
https://MusicHiFi.github.io/web/.