MuseCoco: Generazione di musica simbolica da testo
MuseCoco: Generating Symbolic Music from Text
May 31, 2023
Autori: Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian
cs.AI
Abstract
Generare musica da descrizioni testuali è una modalità user-friendly, poiché il testo rappresenta un'interfaccia relativamente semplice per l'interazione dell'utente. Mentre alcuni approcci utilizzano testi per controllare la generazione di audio musicale, modificare gli elementi musicali nell'audio generato risulta complesso per gli utenti. Al contrario, la musica simbolica offre maggiore facilità di modifica, rendendo più accessibile la manipolazione di specifici elementi musicali. In questo articolo, proponiamo MuseCoco, che genera musica simbolica da descrizioni testuali utilizzando attributi musicali come ponte per suddividere il compito in due fasi: comprensione da testo ad attributo e generazione da attributo a musica. MuseCoco, acronimo di Music Composition Copilot, consente ai musicisti di generare musica direttamente da descrizioni testuali, offrendo un significativo miglioramento dell'efficienza rispetto alla creazione di musica completamente da zero. Il sistema presenta due principali vantaggi: in primo luogo, è efficiente dal punto di vista dei dati. Nella fase di generazione da attributo a musica, gli attributi possono essere estratti direttamente dalle sequenze musicali, rendendo l'addestramento del modello auto-supervisionato. Nella fase di comprensione da testo ad attributo, il testo viene sintetizzato e raffinato da ChatGPT in base a modelli di attributi predefiniti. In secondo luogo, il sistema consente un controllo preciso con attributi specifici nelle descrizioni testuali e offre molteplici opzioni di controllo attraverso approcci condizionati da attributi o da testo. MuseCoco supera i sistemi di riferimento in termini di musicalità, controllabilità e punteggio complessivo rispettivamente di almeno 1,27, 1,08 e 1,32. Inoltre, si osserva un miglioramento significativo di circa il 20% nell'accuratezza del controllo oggettivo. Oltre a ciò, abbiamo sviluppato un modello robusto su larga scala con 1,2 miliardi di parametri, che dimostra una controllabilità e musicalità eccezionali.
English
Generating music from text descriptions is a user-friendly mode since the
text is a relatively easy interface for user engagement. While some approaches
utilize texts to control music audio generation, editing musical elements in
generated audio is challenging for users. In contrast, symbolic music offers
ease of editing, making it more accessible for users to manipulate specific
musical elements. In this paper, we propose MuseCoco, which generates symbolic
music from text descriptions with musical attributes as the bridge to break
down the task into text-to-attribute understanding and attribute-to-music
generation stages. MuseCoCo stands for Music Composition Copilot that empowers
musicians to generate music directly from given text descriptions, offering a
significant improvement in efficiency compared to creating music entirely from
scratch. The system has two main advantages: Firstly, it is data efficient. In
the attribute-to-music generation stage, the attributes can be directly
extracted from music sequences, making the model training self-supervised. In
the text-to-attribute understanding stage, the text is synthesized and refined
by ChatGPT based on the defined attribute templates. Secondly, the system can
achieve precise control with specific attributes in text descriptions and
offers multiple control options through attribute-conditioned or
text-conditioned approaches. MuseCoco outperforms baseline systems in terms of
musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32
respectively. Besides, there is a notable enhancement of about 20% in objective
control accuracy. In addition, we have developed a robust large-scale model
with 1.2 billion parameters, showcasing exceptional controllability and
musicality.