Efficiënte Neurale Muziekgeneratie
Efficient Neural Music Generation
May 25, 2023
Auteurs: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
Samenvatting
Recente vooruitgang in muziekgeneratie is aanzienlijk gevorderd door de
state-of-the-art MusicLM, die een hiërarchie van drie taalmodelen (LMs) omvat,
respectievelijk voor semantische, grove akoestische en fijne akoestische modellering. Echter,
het genereren van samples met MusicLM vereist het sequentieel verwerken van deze LMs om
de fijnkorrelige akoestische tokens te verkrijgen, wat het rekenkundig duur maakt
en ongeschikt voor real-time generatie. Efficiënte muziekgeneratie met een
kwaliteit die vergelijkbaar is met MusicLM blijft een aanzienlijke uitdaging. In dit artikel presenteren we
MeLoDy (M voor muziek; L voor LM; D voor diffusie), een LM-geleid diffusiemodel
dat muziekaudio van state-of-the-art kwaliteit genereert en tegelijkertijd
95,7% of 99,6% van de forward passes in MusicLM reduceert, respectievelijk voor het genereren van
10 seconden of 30 seconden muziek. MeLoDy erft het hoogste niveau LM van MusicLM voor
semantische modellering, en past een nieuw dual-path diffusie (DPD) model en een
audio VAE-GAN toe om de conditionele semantische tokens efficiënt te decoderen naar
golfvorm. DPD wordt voorgesteld om zowel de grove als fijne akoestiek tegelijkertijd te modelleren
door de semantische informatie effectief in segmenten van latents te integreren
via cross-attention bij elke denoising stap. Onze experimentele resultaten suggereren
de superioriteit van MeLoDy, niet alleen in zijn praktische voordelen op het gebied van sample snelheid
en oneindig voortzetbare generatie, maar ook in zijn state-of-the-art
muzikaliteit, audiokwaliteit en tekstcorrelatie.
Onze samples zijn beschikbaar op https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.