MusiConGen : Contrôle du rythme et des accords pour la génération de musique à partir de texte basée sur les Transformers
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation
July 21, 2024
Auteurs: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI
Résumé
Les modèles existants de génération de musique à partir de texte peuvent produire des audios de haute qualité avec une grande diversité. Cependant, les invites textuelles seules ne permettent pas de contrôler avec précision les caractéristiques musicales temporelles telles que les accords et le rythme de la musique générée. Pour relever ce défi, nous présentons MusiConGen, un modèle de génération de musique à partir de texte basé sur un Transformer et conditionné temporellement, qui s'appuie sur le framework pré-entraîné MusicGen. Notre innovation réside dans un mécanisme de fine-tuning efficace, adapté aux GPU grand public, qui intègre le rythme et les accords extraits automatiquement comme signal de conditionnement. Pendant l'inférence, la condition peut être soit des caractéristiques musicales extraites d'un signal audio de référence, soit une séquence d'accords symboliques définie par l'utilisateur, le BPM et les invites textuelles. Notre évaluation des performances sur deux jeux de données -- l'un dérivé de caractéristiques extraites et l'autre d'entrées créées par l'utilisateur -- démontre que MusiConGen peut générer des musiques d'accompagnement réalistes qui s'alignent bien avec les conditions spécifiées. Nous mettons à disposition en open source le code et les points de contrôle du modèle, et fournissons des exemples audio en ligne, https://musicongen.github.io/musicongen_demo/.
English
Existing text-to-music models can produce high-quality audio with great
diversity. However, textual prompts alone cannot precisely control temporal
musical features such as chords and rhythm of the generated music. To address
this challenge, we introduce MusiConGen, a temporally-conditioned
Transformer-based text-to-music model that builds upon the pretrained MusicGen
framework. Our innovation lies in an efficient finetuning mechanism, tailored
for consumer-grade GPUs, that integrates automatically-extracted rhythm and
chords as the condition signal. During inference, the condition can either be
musical features extracted from a reference audio signal, or be user-defined
symbolic chord sequence, BPM, and textual prompts. Our performance evaluation
on two datasets -- one derived from extracted features and the other from
user-created inputs -- demonstrates that MusiConGen can generate realistic
backing track music that aligns well with the specified conditions. We
open-source the code and model checkpoints, and provide audio examples online,
https://musicongen.github.io/musicongen_demo/.Summary
AI-Generated Summary