JEN-1 DreamStyler: ピボタルパラメータチューニングによるカスタマイズされた音楽概念学習
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
June 18, 2024
著者: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI
要旨
テキストから音楽を生成する大規模モデルは大きな進歩を遂げ、提供されたテキストプロンプトから高品質で多様な音楽作品を作成することを可能にしています。しかし、入力テキストプロンプトはユーザーの要求を正確に捉えない場合があり、特に特定の参照コレクションから派生した概念を具現化した音楽を生成することが目的である場合にその傾向が顕著です。本論文では、カスタマイズされたテキストから音楽を生成するための新しい手法を提案します。この手法は、2分間の参照音楽から概念を捉え、その概念に沿った新しい音楽作品を生成することができます。これを実現するために、事前学習済みのテキストから音楽を生成するモデルを参照音楽を用いてファインチューニングします。しかし、すべてのパラメータを直接ファインチューニングすると過学習の問題が生じます。この問題に対処するため、新しい概念を吸収しながらモデルの元の生成能力を保持するPivotal Parameters Tuning法を提案します。さらに、事前学習済みモデルに複数の概念を導入する際に潜在的な概念の衝突が生じる可能性を指摘します。複数の概念を区別するための概念強化戦略を提示し、ファインチューニングされたモデルが個別または複数の概念を同時に取り入れた音楽を生成できるようにします。カスタマイズされた音楽生成タスクに取り組むのは初めてであるため、新しいタスクのためのデータセットと評価プロトコルも導入します。提案するJen1-DreamStylerは、定性的および定量的な評価の両方でいくつかのベースラインを上回りました。デモはhttps://www.jenmusic.ai/research#DreamStylerで公開されます。
English
Large models for text-to-music generation have achieved significant progress,
facilitating the creation of high-quality and varied musical compositions from
provided text prompts. However, input text prompts may not precisely capture
user requirements, particularly when the objective is to generate music that
embodies a specific concept derived from a designated reference collection. In
this paper, we propose a novel method for customized text-to-music generation,
which can capture the concept from a two-minute reference music and generate a
new piece of music conforming to the concept. We achieve this by fine-tuning a
pretrained text-to-music model using the reference music. However, directly
fine-tuning all parameters leads to overfitting issues. To address this
problem, we propose a Pivotal Parameters Tuning method that enables the model
to assimilate the new concept while preserving its original generative
capabilities. Additionally, we identify a potential concept conflict when
introducing multiple concepts into the pretrained model. We present a concept
enhancement strategy to distinguish multiple concepts, enabling the fine-tuned
model to generate music incorporating either individual or multiple concepts
simultaneously. Since we are the first to work on the customized music
generation task, we also introduce a new dataset and evaluation protocol for
the new task. Our proposed Jen1-DreamStyler outperforms several baselines in
both qualitative and quantitative evaluations. Demos will be available at
https://www.jenmusic.ai/research#DreamStyler.Summary
AI-Generated Summary