MuseCoco: Erzeugung symbolischer Musik aus Text
MuseCoco: Generating Symbolic Music from Text
May 31, 2023
Autoren: Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian
cs.AI
Zusammenfassung
Die Generierung von Musik aus Textbeschreibungen ist ein benutzerfreundlicher Modus, da Text eine relativ einfache Schnittstelle für die Benutzerinteraktion darstellt. Während einige Ansätze Texte zur Steuerung der Musikaudiogenerierung nutzen, ist die Bearbeitung musikalischer Elemente in generierten Audiodateien für Benutzer eine Herausforderung. Im Gegensatz dazu bietet symbolische Musik eine einfache Bearbeitbarkeit, was es Benutzern zugänglicher macht, spezifische musikalische Elemente zu manipulieren. In diesem Artikel stellen wir MuseCoco vor, das symbolische Musik aus Textbeschreibungen generiert, wobei musikalische Attribute als Brücke dienen, um die Aufgabe in die Phasen Text-zu-Attribut-Verständnis und Attribut-zu-Musik-Generierung zu unterteilen. MuseCoco steht für Music Composition Copilot, der Musiker befähigt, Musik direkt aus gegebenen Textbeschreibungen zu generieren, was eine erhebliche Effizienzsteigerung im Vergleich zur vollständigen Neuerstellung von Musik bietet. Das System hat zwei Hauptvorteile: Erstens ist es dateneffizient. In der Attribut-zu-Musik-Generierungsphase können die Attribute direkt aus Musiksequenzen extrahiert werden, wodurch das Modelltraining selbstüberwacht ist. In der Text-zu-Attribut-Verständnisphase wird der Text von ChatGPT basierend auf den definierten Attributvorlagen synthetisiert und verfeinert. Zweitens kann das System eine präzise Steuerung mit spezifischen Attributen in Textbeschreibungen erreichen und bietet mehrere Steuerungsoptionen durch attribut- oder textkonditionierte Ansätze. MuseCoco übertrifft Baseline-Systeme in Bezug auf Musikalität, Steuerbarkeit und Gesamtbewertung um mindestens 1,27, 1,08 bzw. 1,32. Darüber hinaus gibt es eine bemerkenswerte Verbesserung der objektiven Steuerungsgenauigkeit von etwa 20%. Zusätzlich haben wir ein robustes großskaliges Modell mit 1,2 Milliarden Parametern entwickelt, das eine außergewöhnliche Steuerbarkeit und Musikalität aufweist.
English
Generating music from text descriptions is a user-friendly mode since the
text is a relatively easy interface for user engagement. While some approaches
utilize texts to control music audio generation, editing musical elements in
generated audio is challenging for users. In contrast, symbolic music offers
ease of editing, making it more accessible for users to manipulate specific
musical elements. In this paper, we propose MuseCoco, which generates symbolic
music from text descriptions with musical attributes as the bridge to break
down the task into text-to-attribute understanding and attribute-to-music
generation stages. MuseCoCo stands for Music Composition Copilot that empowers
musicians to generate music directly from given text descriptions, offering a
significant improvement in efficiency compared to creating music entirely from
scratch. The system has two main advantages: Firstly, it is data efficient. In
the attribute-to-music generation stage, the attributes can be directly
extracted from music sequences, making the model training self-supervised. In
the text-to-attribute understanding stage, the text is synthesized and refined
by ChatGPT based on the defined attribute templates. Secondly, the system can
achieve precise control with specific attributes in text descriptions and
offers multiple control options through attribute-conditioned or
text-conditioned approaches. MuseCoco outperforms baseline systems in terms of
musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32
respectively. Besides, there is a notable enhancement of about 20% in objective
control accuracy. In addition, we have developed a robust large-scale model
with 1.2 billion parameters, showcasing exceptional controllability and
musicality.