MuseCoco : Génération de musique symbolique à partir de texte
MuseCoco: Generating Symbolic Music from Text
May 31, 2023
Auteurs: Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian
cs.AI
Résumé
La génération de musique à partir de descriptions textuelles constitue un mode convivial, car le texte représente une interface relativement simple pour l'engagement des utilisateurs. Bien que certaines approches utilisent des textes pour contrôler la génération audio musicale, l'édition des éléments musicaux dans l'audio généré reste un défi pour les utilisateurs. En revanche, la musique symbolique offre une facilité d'édition, rendant plus accessible la manipulation d'éléments musicaux spécifiques. Dans cet article, nous proposons MuseCoco, qui génère de la musique symbolique à partir de descriptions textuelles en utilisant des attributs musicaux comme pont pour décomposer la tâche en deux étapes : la compréhension texte-vers-attribut et la génération attribut-vers-musique. MuseCoco, acronyme de Music Composition Copilot, permet aux musiciens de générer de la musique directement à partir de descriptions textuelles données, offrant une amélioration significative de l'efficacité par rapport à la création de musique entièrement à partir de zéro. Le système présente deux avantages principaux : Premièrement, il est efficace en termes de données. Dans l'étape de génération attribut-vers-musique, les attributs peuvent être directement extraits des séquences musicales, rendant l'entraînement du modèle auto-supervisé. Dans l'étape de compréhension texte-vers-attribut, le texte est synthétisé et affiné par ChatGPT sur la base de modèles d'attributs définis. Deuxièmement, le système permet un contrôle précis avec des attributs spécifiques dans les descriptions textuelles et offre plusieurs options de contrôle via des approches conditionnées par attributs ou par texte. MuseCoco surpasse les systèmes de référence en termes de musicalité, de contrôlabilité et de score global d'au moins 1,27, 1,08 et 1,32 respectivement. De plus, on observe une amélioration notable d'environ 20 % dans la précision du contrôle objectif. En outre, nous avons développé un modèle robuste à grande échelle avec 1,2 milliard de paramètres, démontrant une contrôlabilité et une musicalité exceptionnelles.
English
Generating music from text descriptions is a user-friendly mode since the
text is a relatively easy interface for user engagement. While some approaches
utilize texts to control music audio generation, editing musical elements in
generated audio is challenging for users. In contrast, symbolic music offers
ease of editing, making it more accessible for users to manipulate specific
musical elements. In this paper, we propose MuseCoco, which generates symbolic
music from text descriptions with musical attributes as the bridge to break
down the task into text-to-attribute understanding and attribute-to-music
generation stages. MuseCoCo stands for Music Composition Copilot that empowers
musicians to generate music directly from given text descriptions, offering a
significant improvement in efficiency compared to creating music entirely from
scratch. The system has two main advantages: Firstly, it is data efficient. In
the attribute-to-music generation stage, the attributes can be directly
extracted from music sequences, making the model training self-supervised. In
the text-to-attribute understanding stage, the text is synthesized and refined
by ChatGPT based on the defined attribute templates. Secondly, the system can
achieve precise control with specific attributes in text descriptions and
offers multiple control options through attribute-conditioned or
text-conditioned approaches. MuseCoco outperforms baseline systems in terms of
musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32
respectively. Besides, there is a notable enhancement of about 20% in objective
control accuracy. In addition, we have developed a robust large-scale model
with 1.2 billion parameters, showcasing exceptional controllability and
musicality.