XMusic : Vers un cadre de génération de musique symbolique généralisé et contrôlable
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
January 15, 2025
Auteurs: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI
Résumé
Ces dernières années, d'importants progrès ont été réalisés dans le domaine de la génération de contenu par intelligence artificielle (IA) dans les domaines de la synthèse d'images et de la génération de texte, produisant des contenus comparables à ceux produits par les humains. Cependant, la qualité de la musique générée par IA n'a pas encore atteint cette norme, principalement en raison du défi de contrôler efficacement les émotions musicales et d'assurer des sorties de haute qualité. Cet article présente un cadre généralisé de génération de musique symbolique, XMusic, qui prend en charge des instructions flexibles (c'est-à-dire des images, des vidéos, des textes, des tags et des fredonnements) pour générer de la musique symbolique émotionnellement contrôlable et de haute qualité. XMusic se compose de deux composants principaux, XProjector et XComposer. XProjector analyse les instructions de différentes modalités en éléments de musique symbolique (c'est-à-dire des émotions, des genres, des rythmes et des notes) dans l'espace de projection pour générer une musique correspondante. XComposer contient un Générateur et un Sélecteur. Le Générateur produit de la musique émotionnellement contrôlable et mélodieuse basée sur notre représentation novatrice de la musique symbolique, tandis que le Sélecteur identifie de la musique symbolique de haute qualité en construisant un schéma d'apprentissage multi-tâches impliquant des tâches d'évaluation de la qualité, de reconnaissance des émotions et de reconnaissance des genres. De plus, nous avons créé XMIDI, un ensemble de données de musique symbolique à grande échelle contenant 108 023 fichiers MIDI annotés avec des étiquettes d'émotion et de genre précises. Les évaluations objectives et subjectives montrent que XMusic surpasse significativement les méthodes actuelles de pointe en matière de qualité musicale impressionnante. Notre XMusic a été récompensé comme l'un des neuf points forts des objets de collection à la WAIC 2023. La page d'accueil du projet XMusic est https://xmusic-project.github.io.
English
In recent years, remarkable advancements in artificial intelligence-generated
content (AIGC) have been achieved in the fields of image synthesis and text
generation, generating content comparable to that produced by humans. However,
the quality of AI-generated music has not yet reached this standard, primarily
due to the challenge of effectively controlling musical emotions and ensuring
high-quality outputs. This paper presents a generalized symbolic music
generation framework, XMusic, which supports flexible prompts (i.e., images,
videos, texts, tags, and humming) to generate emotionally controllable and
high-quality symbolic music. XMusic consists of two core components, XProjector
and XComposer. XProjector parses the prompts of various modalities into
symbolic music elements (i.e., emotions, genres, rhythms and notes) within the
projection space to generate matching music. XComposer contains a Generator and
a Selector. The Generator generates emotionally controllable and melodious
music based on our innovative symbolic music representation, whereas the
Selector identifies high-quality symbolic music by constructing a multi-task
learning scheme involving quality assessment, emotion recognition, and genre
recognition tasks. In addition, we build XMIDI, a large-scale symbolic music
dataset that contains 108,023 MIDI files annotated with precise emotion and
genre labels. Objective and subjective evaluations show that XMusic
significantly outperforms the current state-of-the-art methods with impressive
music quality. Our XMusic has been awarded as one of the nine Highlights of
Collectibles at WAIC 2023. The project homepage of XMusic is
https://xmusic-project.github.io.Summary
AI-Generated Summary