XMusic: Naar een gegeneraliseerd en controleerbaar symbolisch muziekgeneratiekader
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
January 15, 2025
Auteurs: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI
Samenvatting
In de afgelopen jaren zijn opmerkelijke vooruitgang geboekt in door kunstmatige intelligentie gegenereerde inhoud (AIGC) op het gebied van beeldsynthese en tekstgeneratie, waarbij inhoud wordt gegenereerd die vergelijkbaar is met wat door mensen wordt geproduceerd. Echter, de kwaliteit van door AI gegenereerde muziek heeft nog niet dit niveau bereikt, voornamelijk vanwege de uitdaging om muzikale emoties effectief te controleren en hoogwaardige resultaten te garanderen. Dit artikel presenteert een gegeneraliseerd symbolisch muziekgeneratiekader, XMusic, dat flexibele prompts ondersteunt (bijv. afbeeldingen, video's, teksten, tags en neuriën) om emotioneel controleerbare en hoogwaardige symbolische muziek te genereren. XMusic bestaat uit twee kerncomponenten, XProjector en XComposer. XProjector analyseert de prompts van verschillende modaliteiten tot symbolische muziekelementen (bijv. emoties, genres, ritmes en noten) binnen de projectieruimte om overeenkomstige muziek te genereren. XComposer bevat een Generator en een Selector. De Generator genereert emotioneel controleerbare en melodieuze muziek op basis van onze innovatieve symbolische muziekrepresentatie, terwijl de Selector hoogwaardige symbolische muziek identificeert door een multi-task leerschema te construeren met kwaliteitsbeoordeling, emotieherkenning en genreherkenningstaken. Daarnaast bouwen we XMIDI, een grootschalige symbolische muziekdataset die 108.023 MIDI-bestanden bevat die zijn geannoteerd met nauwkeurige emotie- en genrelabels. Objectieve en subjectieve evaluaties tonen aan dat XMusic aanzienlijk beter presteert dan de huidige state-of-the-art methoden met indrukwekkende muziekkwaliteit. Onze XMusic is bekroond als een van de negen hoogtepunten van Collectibles op WAIC 2023. De projecthomepage van XMusic is https://xmusic-project.github.io.
English
In recent years, remarkable advancements in artificial intelligence-generated
content (AIGC) have been achieved in the fields of image synthesis and text
generation, generating content comparable to that produced by humans. However,
the quality of AI-generated music has not yet reached this standard, primarily
due to the challenge of effectively controlling musical emotions and ensuring
high-quality outputs. This paper presents a generalized symbolic music
generation framework, XMusic, which supports flexible prompts (i.e., images,
videos, texts, tags, and humming) to generate emotionally controllable and
high-quality symbolic music. XMusic consists of two core components, XProjector
and XComposer. XProjector parses the prompts of various modalities into
symbolic music elements (i.e., emotions, genres, rhythms and notes) within the
projection space to generate matching music. XComposer contains a Generator and
a Selector. The Generator generates emotionally controllable and melodious
music based on our innovative symbolic music representation, whereas the
Selector identifies high-quality symbolic music by constructing a multi-task
learning scheme involving quality assessment, emotion recognition, and genre
recognition tasks. In addition, we build XMIDI, a large-scale symbolic music
dataset that contains 108,023 MIDI files annotated with precise emotion and
genre labels. Objective and subjective evaluations show that XMusic
significantly outperforms the current state-of-the-art methods with impressive
music quality. Our XMusic has been awarded as one of the nine Highlights of
Collectibles at WAIC 2023. The project homepage of XMusic is
https://xmusic-project.github.io.Summary
AI-Generated Summary