MusiConGen: Controle de Ritmo e Acordes para Geração de Música a partir de Texto baseada em Transformadores
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation
July 21, 2024
Autores: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI
Resumo
Os modelos existentes de texto para música podem produzir áudio de alta qualidade com grande diversidade. No entanto, apenas prompts textuais não conseguem controlar precisamente características musicais temporais, como acordes e ritmo da música gerada. Para enfrentar esse desafio, apresentamos o MusiConGen, um modelo de texto para música baseado em Transformer condicionado temporalmente que se baseia no framework pré-treinado MusicGen. Nossa inovação reside em um mecanismo eficiente de ajuste fino, adaptado para GPUs de consumo, que integra ritmo e acordes extraídos automaticamente como sinal de condição. Durante a inferência, a condição pode ser características musicais extraídas de um sinal de áudio de referência, ou uma sequência de acordes simbólicos definida pelo usuário, BPM e prompts textuais. Nossa avaliação de desempenho em dois conjuntos de dados -- um derivado de características extraídas e outro de entradas criadas pelo usuário -- demonstra que o MusiConGen pode gerar músicas de acompanhamento realistas que se alinham bem com as condições especificadas. Disponibilizamos o código e os pontos de verificação do modelo em código aberto, e fornecemos exemplos de áudio online em https://musicongen.github.io/musicongen_demo/.
English
Existing text-to-music models can produce high-quality audio with great
diversity. However, textual prompts alone cannot precisely control temporal
musical features such as chords and rhythm of the generated music. To address
this challenge, we introduce MusiConGen, a temporally-conditioned
Transformer-based text-to-music model that builds upon the pretrained MusicGen
framework. Our innovation lies in an efficient finetuning mechanism, tailored
for consumer-grade GPUs, that integrates automatically-extracted rhythm and
chords as the condition signal. During inference, the condition can either be
musical features extracted from a reference audio signal, or be user-defined
symbolic chord sequence, BPM, and textual prompts. Our performance evaluation
on two datasets -- one derived from extracted features and the other from
user-created inputs -- demonstrates that MusiConGen can generate realistic
backing track music that aligns well with the specified conditions. We
open-source the code and model checkpoints, and provide audio examples online,
https://musicongen.github.io/musicongen_demo/.