Génération efficace de musique par réseaux neuronaux
Efficient Neural Music Generation
May 25, 2023
Auteurs: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
Résumé
Les progrès récents en génération musicale ont été considérablement améliorés par le modèle de pointe MusicLM, qui comprend une hiérarchie de trois modèles de langage (LM), respectivement pour la modélisation sémantique, acoustique grossière et acoustique fine. Cependant, l'échantillonnage avec MusicLM nécessite de traiter ces LM un par un pour obtenir les tokens acoustiques à granularité fine, ce qui le rend coûteux en calcul et impropre à une génération en temps réel. La génération musicale efficace avec une qualité équivalente à MusicLM reste un défi majeur. Dans cet article, nous présentons MeLoDy (M pour musique ; L pour LM ; D pour diffusion), un modèle de diffusion guidé par LM qui génère des audios musicaux de qualité de pointe tout en réduisant de 95,7 % ou 99,6 % les passes avant dans MusicLM, respectivement pour l'échantillonnage de musiques de 10s ou 30s. MeLoDy hérite du LM de plus haut niveau de MusicLM pour la modélisation sémantique, et applique un nouveau modèle de diffusion à double chemin (DPD) ainsi qu'un VAE-GAN audio pour décoder efficacement les tokens sémantiques conditionnants en forme d'onde. Le DPD est proposé pour modéliser simultanément les aspects acoustiques grossiers et fins en intégrant efficacement l'information sémantique dans des segments de latents via une attention croisée à chaque étape de débruitage. Nos résultats expérimentaux suggèrent la supériorité de MeLoDy, non seulement dans ses avantages pratiques en termes de vitesse d'échantillonnage et de génération infiniment continuable, mais aussi dans sa musicalité, sa qualité audio et sa corrélation textuelle de pointe.
Nos échantillons sont disponibles à l'adresse https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.