効率的なニューラル音楽生成
Efficient Neural Music Generation
May 25, 2023
著者: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
要旨
近年の音楽生成における進展は、最先端のMusicLMによって著しく推進されてきた。MusicLMは、意味的モデリング、粗い音響モデリング、および細かい音響モデリングのための3つのLM(言語モデル)の階層構造を備えている。しかし、MusicLMを用いたサンプリングでは、これらのLMを順次処理して細かい音響トークンを取得する必要があり、計算コストが高く、リアルタイム生成には不向きである。MusicLMと同等の品質を保ちつつ効率的に音楽を生成することは、依然として重要な課題である。本論文では、MeLoDy(Mは音楽、LはLM、Dは拡散モデルを表す)を提案する。これは、LMガイド付き拡散モデルであり、最先端の品質の音楽オーディオを生成しつつ、10秒または30秒の音楽をサンプリングする際に、MusicLMのフォワードパスをそれぞれ95.7%または99.6%削減する。MeLoDyは、意味的モデリングのためにMusicLMの最上位レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付けされた意味トークンを波形に効率的にデコードする。DPDは、各ノイズ除去ステップでクロスアテンションを介してセグメントの潜在変数に意味情報を効果的に組み込むことで、粗い音響と細かい音響を同時にモデル化するために提案された。実験結果は、MeLoDyの優位性を示しており、サンプリング速度と無限に継続可能な生成における実用的な利点だけでなく、最先端の音楽性、オーディオ品質、およびテキスト相関においても優れていることを示唆している。サンプルはhttps://Efficient-MeLoDy.github.io/で公開されている。
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.