MuseCoco: Generación de música simbólica a partir de texto
MuseCoco: Generating Symbolic Music from Text
May 31, 2023
Autores: Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian
cs.AI
Resumen
Generar música a partir de descripciones de texto es un modo amigable para el usuario, ya que el texto es una interfaz relativamente sencilla para la interacción. Si bien algunos enfoques utilizan textos para controlar la generación de audio musical, editar elementos musicales en el audio generado resulta desafiante para los usuarios. En contraste, la música simbólica ofrece facilidad de edición, lo que la hace más accesible para que los usuarios manipulen elementos musicales específicos. En este artículo, proponemos MuseCoco, que genera música simbólica a partir de descripciones de texto utilizando atributos musicales como puente para dividir la tarea en etapas de comprensión de texto a atributo y generación de atributo a música. MuseCoco, que significa Music Composition Copilot, permite a los músicos generar música directamente a partir de descripciones de texto dadas, ofreciendo una mejora significativa en la eficiencia en comparación con crear música completamente desde cero. El sistema tiene dos ventajas principales: En primer lugar, es eficiente en datos. En la etapa de generación de atributo a música, los atributos pueden extraerse directamente de secuencias musicales, lo que hace que el entrenamiento del modelo sea autosupervisado. En la etapa de comprensión de texto a atributo, el texto se sintetiza y refina mediante ChatGPT basándose en plantillas de atributos definidas. En segundo lugar, el sistema puede lograr un control preciso con atributos específicos en las descripciones de texto y ofrece múltiples opciones de control mediante enfoques condicionados por atributos o por texto. MuseCoco supera a los sistemas de referencia en términos de musicalidad, controlabilidad y puntuación general en al menos 1.27, 1.08 y 1.32, respectivamente. Además, se observa una mejora notable de aproximadamente un 20% en la precisión de control objetivo. Adicionalmente, hemos desarrollado un modelo robusto a gran escala con 1.200 millones de parámetros, que muestra una controlabilidad y musicalidad excepcionales.
English
Generating music from text descriptions is a user-friendly mode since the
text is a relatively easy interface for user engagement. While some approaches
utilize texts to control music audio generation, editing musical elements in
generated audio is challenging for users. In contrast, symbolic music offers
ease of editing, making it more accessible for users to manipulate specific
musical elements. In this paper, we propose MuseCoco, which generates symbolic
music from text descriptions with musical attributes as the bridge to break
down the task into text-to-attribute understanding and attribute-to-music
generation stages. MuseCoCo stands for Music Composition Copilot that empowers
musicians to generate music directly from given text descriptions, offering a
significant improvement in efficiency compared to creating music entirely from
scratch. The system has two main advantages: Firstly, it is data efficient. In
the attribute-to-music generation stage, the attributes can be directly
extracted from music sequences, making the model training self-supervised. In
the text-to-attribute understanding stage, the text is synthesized and refined
by ChatGPT based on the defined attribute templates. Secondly, the system can
achieve precise control with specific attributes in text descriptions and
offers multiple control options through attribute-conditioned or
text-conditioned approaches. MuseCoco outperforms baseline systems in terms of
musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32
respectively. Besides, there is a notable enhancement of about 20% in objective
control accuracy. In addition, we have developed a robust large-scale model
with 1.2 billion parameters, showcasing exceptional controllability and
musicality.