MusiConGen : Contrôle du rythme et des accords pour la génération de musique à partir de texte basée sur les Transformers

papers.abstract

Les modèles existants de génération de musique à partir de texte peuvent produire des audios de haute qualité avec une grande diversité. Cependant, les invites textuelles seules ne permettent pas de contrôler avec précision les caractéristiques musicales temporelles telles que les accords et le rythme de la musique générée. Pour relever ce défi, nous présentons MusiConGen, un modèle de génération de musique à partir de texte basé sur un Transformer et conditionné temporellement, qui s'appuie sur le framework pré-entraîné MusicGen. Notre innovation réside dans un mécanisme de fine-tuning efficace, adapté aux GPU grand public, qui intègre le rythme et les accords extraits automatiquement comme signal de conditionnement. Pendant l'inférence, la condition peut être soit des caractéristiques musicales extraites d'un signal audio de référence, soit une séquence d'accords symboliques définie par l'utilisateur, le BPM et les invites textuelles. Notre évaluation des performances sur deux jeux de données -- l'un dérivé de caractéristiques extraites et l'autre d'entrées créées par l'utilisateur -- démontre que MusiConGen peut générer des musiques d'accompagnement réalistes qui s'alignent bien avec les conditions spécifiées. Nous mettons à disposition en open source le code et les points de contrôle du modèle, et fournissons des exemples audio en ligne, https://musicongen.github.io/musicongen_demo/.

English

Existing text-to-music models can produce high-quality audio with great diversity. However, textual prompts alone cannot precisely control temporal musical features such as chords and rhythm of the generated music. To address this challenge, we introduce MusiConGen, a temporally-conditioned Transformer-based text-to-music model that builds upon the pretrained MusicGen framework. Our innovation lies in an efficient finetuning mechanism, tailored for consumer-grade GPUs, that integrates automatically-extracted rhythm and chords as the condition signal. During inference, the condition can either be musical features extracted from a reference audio signal, or be user-defined symbolic chord sequence, BPM, and textual prompts. Our performance evaluation on two datasets -- one derived from extracted features and the other from user-created inputs -- demonstrates that MusiConGen can generate realistic backing track music that aligns well with the specified conditions. We open-source the code and model checkpoints, and provide audio examples online, https://musicongen.github.io/musicongen_demo/.

MusiConGen : Contrôle du rythme et des accords pour la génération de musique à partir de texte basée sur les Transformers

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

papers.abstract

Support