Instruct-MusicGen: 命令チューニングによる音楽言語モデルのためのテキストから音楽編集の解放
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
May 28, 2024
著者: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
要旨
テキストから音楽を編集する最近の進展、すなわちテキストクエリを用いて音楽を変更する(例えば、スタイルを変えたり楽器の構成要素を調整したりする)技術は、AIを活用した音楽制作において独自の課題と機会を提供しています。この分野における従来のアプローチは、特定の編集モデルをゼロから訓練する必要性に制約されており、これはリソース集約的で非効率的です。また、他の研究では大規模言語モデルを使用して編集された音楽を予測していますが、不正確な音声再構成が生じる問題があります。これらの長所を組み合わせ、制約を解決するために、我々はInstruct-MusicGenを提案します。これは、事前訓練されたMusicGenモデルを微調整し、ステムの追加、削除、分離などの編集指示を効率的に追従する新しいアプローチです。我々のアプローチでは、オリジナルのMusicGenアーキテクチャを修正し、テキスト融合モジュールと音声融合モジュールを組み込むことで、モデルが指示テキストと音声入力を同時に処理し、望ましい編集された音楽を生成できるようにします。注目すべきは、Instruct-MusicGenがオリジナルのMusicGenモデルに対してわずか8%の新しいパラメータを導入し、5,000ステップの訓練のみで、既存のベースラインを全てのタスクにおいて上回る性能を達成し、特定のタスク向けに訓練されたモデルと同等の性能を示す点です。この進展は、テキストから音楽を編集する効率を向上させるだけでなく、動的な音楽制作環境における音楽言語モデルの適用範囲を広げるものです。
English
Recent advances in text-to-music editing, which employ text queries to modify
music (e.g.\ by changing its style or adjusting instrumental components),
present unique challenges and opportunities for AI-assisted music creation.
Previous approaches in this domain have been constrained by the necessity to
train specific editing models from scratch, which is both resource-intensive
and inefficient; other research uses large language models to predict edited
music, resulting in imprecise audio reconstruction. To Combine the strengths
and address these limitations, we introduce Instruct-MusicGen, a novel approach
that finetunes a pretrained MusicGen model to efficiently follow editing
instructions such as adding, removing, or separating stems. Our approach
involves a modification of the original MusicGen architecture by incorporating
a text fusion module and an audio fusion module, which allow the model to
process instruction texts and audio inputs concurrently and yield the desired
edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters
to the original MusicGen model and only trains for 5K steps, yet it achieves
superior performance across all tasks compared to existing baselines, and
demonstrates performance comparable to the models trained for specific tasks.
This advancement not only enhances the efficiency of text-to-music editing but
also broadens the applicability of music language models in dynamic music
production environments.Summary
AI-Generated Summary