MuseControlLite: 軽量な条件付けによる多機能音楽生成
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners
June 23, 2025
著者: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI
要旨
我々はMuseControlLiteを提案する。これは、様々な時間変化する音楽的属性と参照オーディオ信号を用いて、テキストから音楽を生成するモデルを精密に条件付けするために設計された軽量なメカニズムである。重要な発見は、テキスト条件の条件付け器においてテキストから音楽を生成するモデルがほとんど使用してこなかった位置埋め込みが、関心のある条件が時間の関数である場合に極めて重要であるということだ。メロディー制御を例として、我々の実験では、デカップルされたクロスアテンション層に回転位置埋め込みを追加するだけで、制御精度が56.6%から61.1%に向上し、最先端のファインチューニングメカニズムと比べて6.75倍少ない学習可能なパラメータで済むことが示された。これは、Stable Audio Openの事前学習済み拡散Transformerモデルを使用している。我々は、様々な音楽的属性制御、オーディオインペインティング、オーディオアウトペインティングを評価し、MusicGen-LargeやStable Audio Open ControlNetよりも大幅に低いファインチューニングコストで、わずか85Mの学習可能なパラメータで改善された制御性を実証した。ソースコード、モデルチェックポイント、デモ例はhttps://musecontrollite.github.io/web/で入手可能である。
English
We propose MuseControlLite, a lightweight mechanism designed to fine-tune
text-to-music generation models for precise conditioning using various
time-varying musical attributes and reference audio signals. The key finding is
that positional embeddings, which have been seldom used by text-to-music
generation models in the conditioner for text conditions, are critical when the
condition of interest is a function of time. Using melody control as an
example, our experiments show that simply adding rotary positional embeddings
to the decoupled cross-attention layers increases control accuracy from 56.6%
to 61.1%, while requiring 6.75 times fewer trainable parameters than
state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion
Transformer model of Stable Audio Open. We evaluate various forms of musical
attribute control, audio inpainting, and audio outpainting, demonstrating
improved controllability over MusicGen-Large and Stable Audio Open ControlNet
at a significantly lower fine-tuning cost, with only 85M trainble parameters.
Source code, model checkpoints, and demo examples are available at:
https://musecontrollite.github.io/web/.