GETMusic:統一表現と拡散フレームワークによる任意の音楽トラック生成
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework
May 18, 2023
著者: Ang Lv, Xu Tan, Peiling Lu, Wei Ye, Shikun Zhang, Jiang Bian, Rui Yan
cs.AI
要旨
シンボリック音楽生成は、音楽の音符を作成することを目的としており、ユーザーが音楽を作曲するのを支援することができます。例えば、ゼロからターゲットの楽器トラックを生成したり、ユーザーが提供したソーストラックに基づいて生成したりすることができます。ソーストラックとターゲットトラックの多様で柔軟な組み合わせを考慮すると、任意のトラックを生成できる統一モデルが極めて重要です。これまでの研究では、音楽表現とモデルアーキテクチャの制約により、このニーズに対応できていませんでした。このニーズに対応するため、我々はGETMusic(`GET'はGEnerate music Tracksの略)という統一表現と拡散フレームワークを提案します。これには、GETScoreという新しい音楽表現と、GETDiffという拡散モデルが含まれます。GETScoreは音符をトークンとして表現し、トラックを垂直に積み重ね、時間とともに水平に進む2D構造で整理します。トレーニング中、トラックはランダムにターゲットまたはソースとして選択されます。フォワードプロセスでは、ターゲットトラックのトークンがマスクされて破損しますが、ソーストラックはグラウンドトゥルースとして残ります。デノイジングプロセスでは、GETDiffはソーストラックを条件として、マスクされたターゲットトークンを予測することを学習します。GETScoreの分離されたトラックとモデルの非自己回帰的な動作により、GETMusicはゼロからまたはソーストラックを条件として、任意のターゲットトラックの生成を明示的に制御できます。我々は6つの楽器トラックを含む音楽生成に関する実験を行い、合計665の組み合わせを結果として得ました。GETMusicは多様な組み合わせにおいて高品質な結果を提供し、特定の組み合わせのために提案されたこれまでの研究を凌駕しています。
English
Symbolic music generation aims to create musical notes, which can help users
compose music, such as generating target instrumental tracks from scratch, or
based on user-provided source tracks. Considering the diverse and flexible
combination between source and target tracks, a unified model capable of
generating any arbitrary tracks is of crucial necessity. Previous works fail to
address this need due to inherent constraints in music representations and
model architectures. To address this need, we propose a unified representation
and diffusion framework named GETMusic (`GET' stands for GEnerate music
Tracks), which includes a novel music representation named GETScore, and a
diffusion model named GETDiff. GETScore represents notes as tokens and
organizes them in a 2D structure, with tracks stacked vertically and
progressing horizontally over time. During training, tracks are randomly
selected as either the target or source. In the forward process, target tracks
are corrupted by masking their tokens, while source tracks remain as ground
truth. In the denoising process, GETDiff learns to predict the masked target
tokens, conditioning on the source tracks. With separate tracks in GETScore and
the non-autoregressive behavior of the model, GETMusic can explicitly control
the generation of any target tracks from scratch or conditioning on source
tracks. We conduct experiments on music generation involving six instrumental
tracks, resulting in a total of 665 combinations. GETMusic provides
high-quality results across diverse combinations and surpasses prior works
proposed for some specific combinations.