MuseControlLite: Geração Musical Multifuncional com Condicionadores Leves
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners
June 23, 2025
Autores: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI
Resumo
Propomos o MuseControlLite, um mecanismo leve projetado para ajustar finamente modelos de geração de texto para música, permitindo condicionamento preciso usando diversos atributos musicais variáveis no tempo e sinais de áudio de referência. A descoberta principal é que os embeddings posicionais, raramente utilizados por modelos de geração de texto para música no condicionador para condições de texto, são cruciais quando a condição de interesse é uma função do tempo. Usando o controle de melodia como exemplo, nossos experimentos mostram que simplesmente adicionar embeddings posicionais rotativos às camadas de atenção cruzada desacopladas aumenta a precisão do controle de 56,6% para 61,1%, enquanto requer 6,75 vezes menos parâmetros treináveis do que os mecanismos de ajuste fino state-of-the-art, utilizando o mesmo modelo de Transformer de difusão pré-treinado do Stable Audio Open. Avaliamos várias formas de controle de atributos musicais, preenchimento de áudio e extensão de áudio, demonstrando uma melhoria na controlabilidade em relação ao MusicGen-Large e ao Stable Audio Open ControlNet a um custo de ajuste fino significativamente menor, com apenas 85M parâmetros treináveis. O código-fonte, checkpoints do modelo e exemplos de demonstração estão disponíveis em: https://musecontrollite.github.io/web/.
English
We propose MuseControlLite, a lightweight mechanism designed to fine-tune
text-to-music generation models for precise conditioning using various
time-varying musical attributes and reference audio signals. The key finding is
that positional embeddings, which have been seldom used by text-to-music
generation models in the conditioner for text conditions, are critical when the
condition of interest is a function of time. Using melody control as an
example, our experiments show that simply adding rotary positional embeddings
to the decoupled cross-attention layers increases control accuracy from 56.6%
to 61.1%, while requiring 6.75 times fewer trainable parameters than
state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion
Transformer model of Stable Audio Open. We evaluate various forms of musical
attribute control, audio inpainting, and audio outpainting, demonstrating
improved controllability over MusicGen-Large and Stable Audio Open ControlNet
at a significantly lower fine-tuning cost, with only 85M trainble parameters.
Source code, model checkpoints, and demo examples are available at:
https://musecontrollite.github.io/web/.