Generazione Efficiente di Musica Neurale
Efficient Neural Music Generation
May 25, 2023
Autori: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
Abstract
I recenti progressi nella generazione musicale sono stati notevolmente avanzati dallo stato dell'arte di MusicLM, che comprende una gerarchia di tre modelli linguistici (LM), rispettivamente per la modellazione semantica, acustica approssimativa e acustica fine. Tuttavia, il campionamento con MusicLM richiede l'elaborazione sequenziale attraverso questi LM per ottenere i token acustici granulari, rendendolo computazionalmente costoso e proibitivo per una generazione in tempo reale. La generazione efficiente di musica con una qualità paragonabile a MusicLM rimane una sfida significativa. In questo articolo, presentiamo MeLoDy (M per musica; L per LM; D per diffusione), un modello di diffusione guidato da LM che genera audio musicali di qualità all'avanguardia, riducendo rispettivamente il 95,7% o il 99,6% dei passaggi in avanti in MusicLM, per campionare musica di 10 secondi o 30 secondi. MeLoDy eredita il LM di livello più alto da MusicLM per la modellazione semantica e applica un nuovo modello di diffusione a doppio percorso (DPD) e un VAE-GAN audio per decodificare efficientemente i token semantici condizionanti in forma d'onda. Il DPD è proposto per modellare simultaneamente l'acustica approssimativa e fine, incorporando le informazioni semantiche in segmenti di latenti in modo efficace tramite cross-attention ad ogni passo di denoising. I nostri risultati sperimentali suggeriscono la superiorità di MeLoDy, non solo nei suoi vantaggi pratici sulla velocità di campionamento e nella generazione infinitamente continuabile, ma anche nella sua musicalità all'avanguardia, qualità audio e correlazione testuale.
I nostri campioni sono disponibili su https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.