ChatPaper.aiChatPaper

MusiConGen: Ritme- en akkoordcontrole voor transformer-gebaseerde tekst-naar-muziekgeneratie

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

July 21, 2024
Auteurs: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

Samenvatting

Bestaande tekst-naar-muziekmodellen kunnen hoogwaardige audio produceren met een grote diversiteit. Echter kunnen tekstuele prompts alleen geen precieze controle bieden over temporele muzikale kenmerken zoals akkoorden en ritme van de gegenereerde muziek. Om deze uitdaging aan te pakken, introduceren we MusiConGen, een temporeel-geconditioneerd Transformer-gebaseerd tekst-naar-muziekmodel dat voortbouwt op het voorgetrainde MusicGen-framework. Onze innovatie ligt in een efficiënt finetuning-mechanisme, afgestemd op consumenten-GPU's, dat automatisch geëxtraheerd ritme en akkoorden integreert als het conditiesignaal. Tijdens inferentie kan de conditie bestaan uit muzikale kenmerken die zijn geëxtraheerd uit een referentie-audiosignaal, of uit door de gebruiker gedefinieerde symbolische akkoordreeksen, BPM en tekstuele prompts. Onze prestatie-evaluatie op twee datasets -- één afgeleid van geëxtraheerde kenmerken en de andere van door gebruikers gecreëerde invoer -- toont aan dat MusiConGen realistische begeleidingsmuziek kan genereren die goed aansluit bij de gespecificeerde condities. We maken de code en modelcheckpoints open source en bieden audiovoorbeelden online, https://musicongen.github.io/musicongen_demo/.
English
Existing text-to-music models can produce high-quality audio with great diversity. However, textual prompts alone cannot precisely control temporal musical features such as chords and rhythm of the generated music. To address this challenge, we introduce MusiConGen, a temporally-conditioned Transformer-based text-to-music model that builds upon the pretrained MusicGen framework. Our innovation lies in an efficient finetuning mechanism, tailored for consumer-grade GPUs, that integrates automatically-extracted rhythm and chords as the condition signal. During inference, the condition can either be musical features extracted from a reference audio signal, or be user-defined symbolic chord sequence, BPM, and textual prompts. Our performance evaluation on two datasets -- one derived from extracted features and the other from user-created inputs -- demonstrates that MusiConGen can generate realistic backing track music that aligns well with the specified conditions. We open-source the code and model checkpoints, and provide audio examples online, https://musicongen.github.io/musicongen_demo/.
PDF92February 8, 2026