Geração Eficiente de Música Neural
Efficient Neural Music Generation
May 25, 2023
Autores: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
Resumo
Os recentes avanços na geração de música foram notavelmente impulsionados pelo estado da arte do MusicLM, que compreende uma hierarquia de três modelos de linguagem (LMs), respectivamente, para modelagem semântica, acústica grosseira e acústica refinada. No entanto, a amostragem com o MusicLM requer o processamento sequencial desses LMs para obter os tokens acústicos de granularidade fina, tornando-o computacionalmente caro e proibitivo para geração em tempo real. A geração eficiente de música com qualidade comparável ao MusicLM continua sendo um desafio significativo. Neste artigo, apresentamos o MeLoDy (M para música; L para LM; D para difusão), um modelo de difusão guiado por LM que gera áudios musicais de qualidade de última geração, ao mesmo tempo em que reduz 95,7% ou 99,6% das passagens diretas no MusicLM, respectivamente, para amostrar músicas de 10s ou 30s. O MeLoDy herda o LM de nível mais alto do MusicLM para modelagem semântica e aplica um novo modelo de difusão de caminho duplo (DPD) e um VAE-GAN de áudio para decodificar eficientemente os tokens semânticos condicionantes em forma de onda. O DPD é proposto para modelar simultaneamente a acústica grosseira e fina, incorporando efetivamente a informação semântica em segmentos de latentes via atenção cruzada em cada etapa de remoção de ruído. Nossos resultados experimentais sugerem a superioridade do MeLoDy, não apenas em suas vantagens práticas na velocidade de amostragem e geração infinitamente contínua, mas também em sua musicalidade, qualidade de áudio e correlação textual de última geração.
Nossas amostras estão disponíveis em https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.