Efficiënte Neurale Muziekgeneratie

Samenvatting

Recente vooruitgang in muziekgeneratie is aanzienlijk gevorderd door de state-of-the-art MusicLM, die een hiërarchie van drie taalmodelen (LMs) omvat, respectievelijk voor semantische, grove akoestische en fijne akoestische modellering. Echter, het genereren van samples met MusicLM vereist het sequentieel verwerken van deze LMs om de fijnkorrelige akoestische tokens te verkrijgen, wat het rekenkundig duur maakt en ongeschikt voor real-time generatie. Efficiënte muziekgeneratie met een kwaliteit die vergelijkbaar is met MusicLM blijft een aanzienlijke uitdaging. In dit artikel presenteren we MeLoDy (M voor muziek; L voor LM; D voor diffusie), een LM-geleid diffusiemodel dat muziekaudio van state-of-the-art kwaliteit genereert en tegelijkertijd 95,7% of 99,6% van de forward passes in MusicLM reduceert, respectievelijk voor het genereren van 10 seconden of 30 seconden muziek. MeLoDy erft het hoogste niveau LM van MusicLM voor semantische modellering, en past een nieuw dual-path diffusie (DPD) model en een audio VAE-GAN toe om de conditionele semantische tokens efficiënt te decoderen naar golfvorm. DPD wordt voorgesteld om zowel de grove als fijne akoestiek tegelijkertijd te modelleren door de semantische informatie effectief in segmenten van latents te integreren via cross-attention bij elke denoising stap. Onze experimentele resultaten suggereren de superioriteit van MeLoDy, niet alleen in zijn praktische voordelen op het gebied van sample snelheid en oneindig voortzetbare generatie, maar ook in zijn state-of-the-art muzikaliteit, audiokwaliteit en tekstcorrelatie. Onze samples zijn beschikbaar op https://Efficient-MeLoDy.github.io/.

English

Recent progress in music generation has been remarkably advanced by the state-of-the-art MusicLM, which comprises a hierarchy of three LMs, respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet, sampling with the MusicLM requires processing through these LMs one by one to obtain the fine-grained acoustic tokens, making it computationally expensive and prohibitive for a real-time generation. Efficient music generation with a quality on par with MusicLM remains a significant challenge. In this paper, we present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion model that generates music audios of state-of-the-art quality meanwhile reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling 10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for semantic modeling, and applies a novel dual-path diffusion (DPD) model and an audio VAE-GAN to efficiently decode the conditioning semantic tokens into waveform. DPD is proposed to simultaneously model the coarse and fine acoustics by incorporating the semantic information into segments of latents effectively via cross-attention at each denoising step. Our experimental results suggest the superiority of MeLoDy, not only in its practical advantages on sampling speed and infinitely continuable generation, but also in its state-of-the-art musicality, audio quality, and text correlation. Our samples are available at https://Efficient-MeLoDy.github.io/.

Efficiënte Neurale Muziekgeneratie

Efficient Neural Music Generation

Samenvatting

Support