VampNet: マスクされた音響トークンモデリングによる音楽生成
VampNet: Music Generation via Masked Acoustic Token Modeling
July 10, 2023
著者: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI
要旨
我々は、音楽の合成、圧縮、インペインティング、およびバリエーションのためのマスクされた音響トークンモデリング手法であるVampNetを紹介する。トレーニング中に可変マスキングスケジュールを使用することで、推論時に様々なマスキングアプローチ(プロンプトと呼ばれる)を適用することで、モデルから一貫性のある音楽をサンプリングすることが可能となる。VampNetは非自己回帰型であり、双方向トランスフォーマーアーキテクチャを活用して、フォワードパスで全てのトークンに注意を向ける。わずか36回のサンプリングパスで、VampNetは一貫性のある高忠実度の音楽波形を生成することができる。我々は、VampNetに様々な方法でプロンプトを与えることで、音楽の圧縮、インペインティング、アウトペインティング、継続、およびバリエーションを伴うループ(ヴァンピング)といったタスクに適用できることを示す。適切にプロンプトを与えることで、VampNetは音楽のスタイル、ジャンル、楽器編成、その他の高レベルの側面を維持することが可能である。この柔軟なプロンプト機能により、VampNetは強力な音楽共創ツールとなる。コードと音声サンプルはオンラインで公開されている。
English
We introduce VampNet, a masked acoustic token modeling approach to music
synthesis, compression, inpainting, and variation. We use a variable masking
schedule during training which allows us to sample coherent music from the
model by applying a variety of masking approaches (called prompts) during
inference. VampNet is non-autoregressive, leveraging a bidirectional
transformer architecture that attends to all tokens in a forward pass. With
just 36 sampling passes, VampNet can generate coherent high-fidelity musical
waveforms. We show that by prompting VampNet in various ways, we can apply it
to tasks like music compression, inpainting, outpainting, continuation, and
looping with variation (vamping). Appropriately prompted, VampNet is capable of
maintaining style, genre, instrumentation, and other high-level aspects of the
music. This flexible prompting capability makes VampNet a powerful music
co-creation tool. Code and audio samples are available online.