MusiConGen: Controllo di Ritmo e Accordi per la Generazione di Musica da Testo Basata su Transformer
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation
July 21, 2024
Autori: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI
Abstract
I modelli esistenti di testo-a-musica sono in grado di produrre audio di alta qualità con una grande diversità. Tuttavia, i prompt testuali da soli non possono controllare con precisione le caratteristiche musicali temporali, come gli accordi e il ritmo della musica generata. Per affrontare questa sfida, introduciamo MusiConGen, un modello testo-a-musica basato su Transformer e condizionato temporalmente, che si basa sul framework pre-addestrato MusicGen. La nostra innovazione risiede in un meccanismo di fine-tuning efficiente, progettato per GPU di livello consumer, che integra ritmo e accordi estratti automaticamente come segnale di condizionamento. Durante l'inferenza, la condizione può essere rappresentata da caratteristiche musicali estratte da un segnale audio di riferimento, oppure da una sequenza di accordi simbolici definita dall'utente, BPM e prompt testuali. La nostra valutazione delle prestazioni su due dataset – uno derivato da caratteristiche estratte e l'altro da input creati dall'utente – dimostra che MusiConGen può generare musica di accompagnamento realistica che si allinea bene con le condizioni specificate. Rendiamo disponibile il codice e i checkpoint del modello in open-source e forniamo esempi audio online, https://musicongen.github.io/musicongen_demo/.
English
Existing text-to-music models can produce high-quality audio with great
diversity. However, textual prompts alone cannot precisely control temporal
musical features such as chords and rhythm of the generated music. To address
this challenge, we introduce MusiConGen, a temporally-conditioned
Transformer-based text-to-music model that builds upon the pretrained MusicGen
framework. Our innovation lies in an efficient finetuning mechanism, tailored
for consumer-grade GPUs, that integrates automatically-extracted rhythm and
chords as the condition signal. During inference, the condition can either be
musical features extracted from a reference audio signal, or be user-defined
symbolic chord sequence, BPM, and textual prompts. Our performance evaluation
on two datasets -- one derived from extracted features and the other from
user-created inputs -- demonstrates that MusiConGen can generate realistic
backing track music that aligns well with the specified conditions. We
open-source the code and model checkpoints, and provide audio examples online,
https://musicongen.github.io/musicongen_demo/.