MuseCoco: Symbolische Muziek Genereren uit Tekst

Samenvatting

Het genereren van muziek vanuit tekstbeschrijvingen is een gebruiksvriendelijke methode, aangezien tekst een relatief eenvoudige interface biedt voor gebruikersinteractie. Hoewel sommige benaderingen tekst gebruiken om de generatie van muziekaudio te sturen, is het bewerken van muzikale elementen in gegenereerde audio uitdagend voor gebruikers. Symbolische muziek daarentegen biedt gemakkelijke bewerkingsmogelijkheden, waardoor het voor gebruikers toegankelijker wordt om specifieke muzikale elementen te manipuleren. In dit artikel stellen we MuseCoco voor, dat symbolische muziek genereert vanuit tekstbeschrijvingen met muzikale attributen als brug om de taak op te splitsen in tekst-naar-attribuutbegrip en attribuut-naar-muziekgeneratie fasen. MuseCoCo staat voor Music Composition Copilot en stelt muzikanten in staat om muziek direct vanuit gegeven tekstbeschrijvingen te genereren, wat een aanzienlijke verbetering in efficiëntie biedt in vergelijking met het volledig vanaf nul creëren van muziek. Het systeem heeft twee belangrijke voordelen: Ten eerste is het data-efficiënt. In de attribuut-naar-muziekgeneratie fase kunnen de attributen direct uit muzieksequenties worden geëxtraheerd, waardoor de modeltraining zelfsupervised is. In de tekst-naar-attribuutbegrip fase wordt de tekst gesynthetiseerd en verfijnd door ChatGPT op basis van gedefinieerde attribuutsjablonen. Ten tweede kan het systeem precieze controle bereiken met specifieke attributen in tekstbeschrijvingen en biedt het meerdere controle-opties via attribuut-geconditioneerde of tekst-geconditioneerde benaderingen. MuseCoco overtreft baseline-systemen wat betreft muzikaliteit, controleerbaarheid en algemene score met respectievelijk minimaal 1.27, 1.08 en 1.32. Daarnaast is er een opmerkelijke verbetering van ongeveer 20% in objectieve controle-nauwkeurigheid. Bovendien hebben we een robuust grootschalig model ontwikkeld met 1,2 miljard parameters, dat uitblinkt in controleerbaarheid en muzikaliteit.

English

Generating music from text descriptions is a user-friendly mode since the text is a relatively easy interface for user engagement. While some approaches utilize texts to control music audio generation, editing musical elements in generated audio is challenging for users. In contrast, symbolic music offers ease of editing, making it more accessible for users to manipulate specific musical elements. In this paper, we propose MuseCoco, which generates symbolic music from text descriptions with musical attributes as the bridge to break down the task into text-to-attribute understanding and attribute-to-music generation stages. MuseCoCo stands for Music Composition Copilot that empowers musicians to generate music directly from given text descriptions, offering a significant improvement in efficiency compared to creating music entirely from scratch. The system has two main advantages: Firstly, it is data efficient. In the attribute-to-music generation stage, the attributes can be directly extracted from music sequences, making the model training self-supervised. In the text-to-attribute understanding stage, the text is synthesized and refined by ChatGPT based on the defined attribute templates. Secondly, the system can achieve precise control with specific attributes in text descriptions and offers multiple control options through attribute-conditioned or text-conditioned approaches. MuseCoco outperforms baseline systems in terms of musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32 respectively. Besides, there is a notable enhancement of about 20% in objective control accuracy. In addition, we have developed a robust large-scale model with 1.2 billion parameters, showcasing exceptional controllability and musicality.

MuseCoco: Symbolische Muziek Genereren uit Tekst

MuseCoco: Generating Symbolic Music from Text

Samenvatting

Support