MuseCoco: Generación de música simbólica a partir de texto

Resumen

Generar música a partir de descripciones de texto es un modo amigable para el usuario, ya que el texto es una interfaz relativamente sencilla para la interacción. Si bien algunos enfoques utilizan textos para controlar la generación de audio musical, editar elementos musicales en el audio generado resulta desafiante para los usuarios. En contraste, la música simbólica ofrece facilidad de edición, lo que la hace más accesible para que los usuarios manipulen elementos musicales específicos. En este artículo, proponemos MuseCoco, que genera música simbólica a partir de descripciones de texto utilizando atributos musicales como puente para dividir la tarea en etapas de comprensión de texto a atributo y generación de atributo a música. MuseCoco, que significa Music Composition Copilot, permite a los músicos generar música directamente a partir de descripciones de texto dadas, ofreciendo una mejora significativa en la eficiencia en comparación con crear música completamente desde cero. El sistema tiene dos ventajas principales: En primer lugar, es eficiente en datos. En la etapa de generación de atributo a música, los atributos pueden extraerse directamente de secuencias musicales, lo que hace que el entrenamiento del modelo sea autosupervisado. En la etapa de comprensión de texto a atributo, el texto se sintetiza y refina mediante ChatGPT basándose en plantillas de atributos definidas. En segundo lugar, el sistema puede lograr un control preciso con atributos específicos en las descripciones de texto y ofrece múltiples opciones de control mediante enfoques condicionados por atributos o por texto. MuseCoco supera a los sistemas de referencia en términos de musicalidad, controlabilidad y puntuación general en al menos 1.27, 1.08 y 1.32, respectivamente. Además, se observa una mejora notable de aproximadamente un 20% en la precisión de control objetivo. Adicionalmente, hemos desarrollado un modelo robusto a gran escala con 1.200 millones de parámetros, que muestra una controlabilidad y musicalidad excepcionales.

English

Generating music from text descriptions is a user-friendly mode since the text is a relatively easy interface for user engagement. While some approaches utilize texts to control music audio generation, editing musical elements in generated audio is challenging for users. In contrast, symbolic music offers ease of editing, making it more accessible for users to manipulate specific musical elements. In this paper, we propose MuseCoco, which generates symbolic music from text descriptions with musical attributes as the bridge to break down the task into text-to-attribute understanding and attribute-to-music generation stages. MuseCoCo stands for Music Composition Copilot that empowers musicians to generate music directly from given text descriptions, offering a significant improvement in efficiency compared to creating music entirely from scratch. The system has two main advantages: Firstly, it is data efficient. In the attribute-to-music generation stage, the attributes can be directly extracted from music sequences, making the model training self-supervised. In the text-to-attribute understanding stage, the text is synthesized and refined by ChatGPT based on the defined attribute templates. Secondly, the system can achieve precise control with specific attributes in text descriptions and offers multiple control options through attribute-conditioned or text-conditioned approaches. MuseCoco outperforms baseline systems in terms of musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32 respectively. Besides, there is a notable enhancement of about 20% in objective control accuracy. In addition, we have developed a robust large-scale model with 1.2 billion parameters, showcasing exceptional controllability and musicality.

MuseCoco: Generación de música simbólica a partir de texto

MuseCoco: Generating Symbolic Music from Text

Resumen

Support