ChatPaper.aiChatPaper

MuseControlLite: Geração Musical Multifuncional com Condicionadores Leves

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

June 23, 2025
Autores: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

Resumo

Propomos o MuseControlLite, um mecanismo leve projetado para ajustar finamente modelos de geração de texto para música, permitindo condicionamento preciso usando diversos atributos musicais variáveis no tempo e sinais de áudio de referência. A descoberta principal é que os embeddings posicionais, raramente utilizados por modelos de geração de texto para música no condicionador para condições de texto, são cruciais quando a condição de interesse é uma função do tempo. Usando o controle de melodia como exemplo, nossos experimentos mostram que simplesmente adicionar embeddings posicionais rotativos às camadas de atenção cruzada desacopladas aumenta a precisão do controle de 56,6% para 61,1%, enquanto requer 6,75 vezes menos parâmetros treináveis do que os mecanismos de ajuste fino state-of-the-art, utilizando o mesmo modelo de Transformer de difusão pré-treinado do Stable Audio Open. Avaliamos várias formas de controle de atributos musicais, preenchimento de áudio e extensão de áudio, demonstrando uma melhoria na controlabilidade em relação ao MusicGen-Large e ao Stable Audio Open ControlNet a um custo de ajuste fino significativamente menor, com apenas 85M parâmetros treináveis. O código-fonte, checkpoints do modelo e exemplos de demonstração estão disponíveis em: https://musecontrollite.github.io/web/.
English
We propose MuseControlLite, a lightweight mechanism designed to fine-tune text-to-music generation models for precise conditioning using various time-varying musical attributes and reference audio signals. The key finding is that positional embeddings, which have been seldom used by text-to-music generation models in the conditioner for text conditions, are critical when the condition of interest is a function of time. Using melody control as an example, our experiments show that simply adding rotary positional embeddings to the decoupled cross-attention layers increases control accuracy from 56.6% to 61.1%, while requiring 6.75 times fewer trainable parameters than state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion Transformer model of Stable Audio Open. We evaluate various forms of musical attribute control, audio inpainting, and audio outpainting, demonstrating improved controllability over MusicGen-Large and Stable Audio Open ControlNet at a significantly lower fine-tuning cost, with only 85M trainble parameters. Source code, model checkpoints, and demo examples are available at: https://musecontrollite.github.io/web/.
PDF31June 27, 2025