MusicHiFi: Snelle Hoogwaardige Stereovocodering

Samenvatting

Diffusiegebaseerde audio- en muziekgeneratiemodellen genereren doorgaans muziek door een beeldrepresentatie van audio te construeren (bijvoorbeeld een mel-spectrogram) en deze vervolgens om te zetten naar audio met behulp van een fase-reconstructiemodel of een vocoder. Typische vocoders produceren echter monofonische audio bij lagere resoluties (bijvoorbeeld 16-24 kHz), wat hun effectiviteit beperkt. Wij stellen MusicHiFi voor – een efficiënte high-fidelity stereofonische vocoder. Onze methode maakt gebruik van een cascade van drie generatieve adversariële netwerken (GANs) die laagresolutie mel-spectrogrammen omzetten naar audio, upsamplen naar hoogresolutie audio via bandbreedte-uitbreiding, en upmixen naar stereofonische audio. In vergelijking met eerder werk stellen wij 1) een uniforme GAN-gebaseerde generator- en discriminatorarchitectuur en trainingsprocedure voor elke fase van onze cascade voor, 2) een nieuwe snelle, bijna downsampling-compatibele bandbreedte-uitbreidingsmodule, en 3) een nieuwe snelle downmix-compatibele mono-naar-stereo upmixer die ervoor zorgt dat monofonische inhoud in de output behouden blijft. We evalueren onze aanpak met zowel objectieve als subjectieve luistertests en concluderen dat onze aanpak vergelijkbare of betere audiokwaliteit, betere spatialisatiecontrole en aanzienlijk snellere inferentiesnelheid oplevert in vergelijking met eerder werk. Geluidvoorbeelden zijn te vinden op https://MusicHiFi.github.io/web/.

English

Diffusion-based audio and music generation models commonly generate music by constructing an image representation of audio (e.g., a mel-spectrogram) and then converting it to audio using a phase reconstruction model or vocoder. Typical vocoders, however, produce monophonic audio at lower resolutions (e.g., 16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an efficient high-fidelity stereophonic vocoder. Our method employs a cascade of three generative adversarial networks (GANs) that convert low-resolution mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth expansion, and upmixes to stereophonic audio. Compared to previous work, we propose 1) a unified GAN-based generator and discriminator architecture and training procedure for each stage of our cascade, 2) a new fast, near downsampling-compatible bandwidth extension module, and 3) a new fast downmix-compatible mono-to-stereo upmixer that ensures the preservation of monophonic content in the output. We evaluate our approach using both objective and subjective listening tests and find our approach yields comparable or better audio quality, better spatialization control, and significantly faster inference speed compared to past work. Sound examples are at https://MusicHiFi.github.io/web/.

MusicHiFi: Snelle Hoogwaardige Stereovocodering

MusicHiFi: Fast High-Fidelity Stereo Vocoding

Samenvatting

Support