MuseControlLite: 경량 조건자를 활용한 다기능 음악 생성
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners
June 23, 2025
저자: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI
초록
우리는 다양한 시간에 따라 변화하는 음악적 속성과 참조 오디오 신호를 사용하여 정확한 조건화를 위해 텍스트-음악 생성 모델을 미세 조정하도록 설계된 경량 메커니즘인 MuseControlLite를 제안합니다. 핵심 발견은 텍스트 조건을 위한 조건화기에서 텍스트-음악 생성 모델들이 거의 사용하지 않았던 위치 임베딩이, 관심 조건이 시간의 함수일 때 매우 중요하다는 것입니다. 멜로디 제어를 예로 들어, 우리의 실험은 디커플드 크로스-어텐션 레이어에 단순히 로터리 위치 임베딩을 추가하는 것만으로도 제어 정확도를 56.6%에서 61.1%로 증가시키는 동시에, 최첨단 미세 조정 메커니즘보다 6.75배 적은 학습 가능한 매개변수를 필요로 한다는 것을 보여줍니다. 이는 Stable Audio Open의 사전 학습된 디퓨전 트랜스포머 모델을 사용하여 이루어졌습니다. 우리는 다양한 형태의 음악적 속성 제어, 오디오 인페인팅, 오디오 아웃페인팅을 평가하며, MusicGen-Large와 Stable Audio Open ControlNet보다 훨씬 낮은 미세 조정 비용으로 향상된 제어 가능성을 입증합니다. 이는 단 85M의 학습 가능한 매개변수만을 사용합니다. 소스 코드, 모델 체크포인트, 데모 예제는 https://musecontrollite.github.io/web/에서 확인할 수 있습니다.
English
We propose MuseControlLite, a lightweight mechanism designed to fine-tune
text-to-music generation models for precise conditioning using various
time-varying musical attributes and reference audio signals. The key finding is
that positional embeddings, which have been seldom used by text-to-music
generation models in the conditioner for text conditions, are critical when the
condition of interest is a function of time. Using melody control as an
example, our experiments show that simply adding rotary positional embeddings
to the decoupled cross-attention layers increases control accuracy from 56.6%
to 61.1%, while requiring 6.75 times fewer trainable parameters than
state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion
Transformer model of Stable Audio Open. We evaluate various forms of musical
attribute control, audio inpainting, and audio outpainting, demonstrating
improved controllability over MusicGen-Large and Stable Audio Open ControlNet
at a significantly lower fine-tuning cost, with only 85M trainble parameters.
Source code, model checkpoints, and demo examples are available at:
https://musecontrollite.github.io/web/.