XMusic: Hacia un Marco de Generación de Música Simbólica Generalizado y Controlable
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
January 15, 2025
Autores: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI
Resumen
En los últimos años, se han logrado avances notables en el contenido generado por inteligencia artificial (CGIA) en los campos de síntesis de imágenes y generación de texto, generando contenido comparable al producido por humanos. Sin embargo, la calidad de la música generada por IA aún no ha alcanzado este estándar, principalmente debido al desafío de controlar eficazmente las emociones musicales y garantizar salidas de alta calidad. Este documento presenta un marco de generación de música simbólica generalizado, XMusic, que admite indicaciones flexibles (es decir, imágenes, videos, textos, etiquetas y tarareos) para generar música simbólica emocionalmente controlable y de alta calidad. XMusic consta de dos componentes principales, XProjector y XComposer. XProjector analiza las indicaciones de varias modalidades en elementos de música simbólica (es decir, emociones, géneros, ritmos y notas) dentro del espacio de proyección para generar música correspondiente. XComposer contiene un Generador y un Selector. El Generador genera música emocionalmente controlable y melodiosa basada en nuestra innovadora representación de música simbólica, mientras que el Selector identifica música simbólica de alta calidad mediante la construcción de un esquema de aprendizaje multi-tarea que involucra tareas de evaluación de calidad, reconocimiento de emociones y reconocimiento de géneros. Además, construimos XMIDI, un conjunto de datos de música simbólica a gran escala que contiene 108,023 archivos MIDI anotados con etiquetas precisas de emoción y género. Evaluaciones objetivas y subjetivas muestran que XMusic supera significativamente a los métodos actuales más avanzados con una calidad musical impresionante. Nuestro XMusic ha sido galardonado como uno de los nueve Destacados de Coleccionables en WAIC 2023. La página de inicio del proyecto XMusic es https://xmusic-project.github.io.
English
In recent years, remarkable advancements in artificial intelligence-generated
content (AIGC) have been achieved in the fields of image synthesis and text
generation, generating content comparable to that produced by humans. However,
the quality of AI-generated music has not yet reached this standard, primarily
due to the challenge of effectively controlling musical emotions and ensuring
high-quality outputs. This paper presents a generalized symbolic music
generation framework, XMusic, which supports flexible prompts (i.e., images,
videos, texts, tags, and humming) to generate emotionally controllable and
high-quality symbolic music. XMusic consists of two core components, XProjector
and XComposer. XProjector parses the prompts of various modalities into
symbolic music elements (i.e., emotions, genres, rhythms and notes) within the
projection space to generate matching music. XComposer contains a Generator and
a Selector. The Generator generates emotionally controllable and melodious
music based on our innovative symbolic music representation, whereas the
Selector identifies high-quality symbolic music by constructing a multi-task
learning scheme involving quality assessment, emotion recognition, and genre
recognition tasks. In addition, we build XMIDI, a large-scale symbolic music
dataset that contains 108,023 MIDI files annotated with precise emotion and
genre labels. Objective and subjective evaluations show that XMusic
significantly outperforms the current state-of-the-art methods with impressive
music quality. Our XMusic has been awarded as one of the nine Highlights of
Collectibles at WAIC 2023. The project homepage of XMusic is
https://xmusic-project.github.io.Summary
AI-Generated Summary