ChatPaper.aiChatPaper

MuseControlLite: Generazione Musicale Multifunzionale con Condizionatori Leggeri

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

June 23, 2025
Autori: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

Abstract

Proponiamo MuseControlLite, un meccanismo leggero progettato per ottimizzare i modelli di generazione musica-da-testo attraverso un condizionamento preciso basato su vari attributi musicali variabili nel tempo e segnali audio di riferimento. La scoperta chiave è che gli embedding posizionali, raramente utilizzati dai modelli di generazione musica-da-testo nel condizionatore per le condizioni testuali, sono cruciali quando la condizione di interesse è una funzione del tempo. Utilizzando il controllo della melodia come esempio, i nostri esperimenti dimostrano che l'aggiunta di semplici embedding posizionali rotazionali agli strati di cross-attention disaccoppiati aumenta l'accuratezza del controllo dal 56,6% al 61,1%, richiedendo 6,75 volte meno parametri addestrabili rispetto ai meccanismi di ottimizzazione all'avanguardia, utilizzando lo stesso modello Transformer di diffusione pre-addestrato di Stable Audio Open. Valutiamo varie forme di controllo degli attributi musicali, inpainting audio e outpainting audio, dimostrando una migliore controllabilità rispetto a MusicGen-Large e Stable Audio Open ControlNet a un costo di ottimizzazione significativamente inferiore, con soli 85M parametri addestrabili. Il codice sorgente, i checkpoint del modello e gli esempi demo sono disponibili su: https://musecontrollite.github.io/web/.
English
We propose MuseControlLite, a lightweight mechanism designed to fine-tune text-to-music generation models for precise conditioning using various time-varying musical attributes and reference audio signals. The key finding is that positional embeddings, which have been seldom used by text-to-music generation models in the conditioner for text conditions, are critical when the condition of interest is a function of time. Using melody control as an example, our experiments show that simply adding rotary positional embeddings to the decoupled cross-attention layers increases control accuracy from 56.6% to 61.1%, while requiring 6.75 times fewer trainable parameters than state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion Transformer model of Stable Audio Open. We evaluate various forms of musical attribute control, audio inpainting, and audio outpainting, demonstrating improved controllability over MusicGen-Large and Stable Audio Open ControlNet at a significantly lower fine-tuning cost, with only 85M trainble parameters. Source code, model checkpoints, and demo examples are available at: https://musecontrollite.github.io/web/.
PDF21June 27, 2025