MuseCoco: Geração de Música Simbólica a partir de Texto
MuseCoco: Generating Symbolic Music from Text
May 31, 2023
Autores: Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian
cs.AI
Resumo
Gerar música a partir de descrições textais é um modo amigável ao usuário, já que o texto é uma interface relativamente fácil para o engajamento do usuário. Embora algumas abordagens utilizem textos para controlar a geração de áudio musical, editar elementos musicais em áudio gerado é desafiador para os usuários. Em contraste, a música simbólica oferece facilidade de edição, tornando-a mais acessível para os usuários manipularem elementos musicais específicos. Neste artigo, propomos o MuseCoco, que gera música simbólica a partir de descrições textais com atributos musicais como ponte para dividir a tarefa em estágios de compreensão de texto para atributos e geração de música a partir de atributos. MuseCoco significa Copiloto de Composição Musical, que capacita músicos a gerar música diretamente a partir de descrições textais fornecidas, oferecendo uma melhoria significativa na eficiência em comparação com a criação de música totalmente do zero. O sistema tem duas vantagens principais: Em primeiro lugar, ele é eficiente em termos de dados. No estágio de geração de música a partir de atributos, os atributos podem ser extraídos diretamente de sequências musicais, tornando o treinamento do modelo auto-supervisionado. No estágio de compreensão de texto para atributos, o texto é sintetizado e refinado pelo ChatGPT com base em modelos de atributos definidos. Em segundo lugar, o sistema pode alcançar controle preciso com atributos específicos em descrições textais e oferece múltiplas opções de controle por meio de abordagens condicionadas por atributos ou por texto. O MuseCoco supera sistemas de linha de base em termos de musicalidade, controlabilidade e pontuação geral em pelo menos 1,27, 1,08 e 1,32, respectivamente. Além disso, há uma melhoria notável de cerca de 20% na precisão de controle objetivo. Adicionalmente, desenvolvemos um modelo robusto em larga escala com 1,2 bilhão de parâmetros, demonstrando excepcional controlabilidade e musicalidade.
English
Generating music from text descriptions is a user-friendly mode since the
text is a relatively easy interface for user engagement. While some approaches
utilize texts to control music audio generation, editing musical elements in
generated audio is challenging for users. In contrast, symbolic music offers
ease of editing, making it more accessible for users to manipulate specific
musical elements. In this paper, we propose MuseCoco, which generates symbolic
music from text descriptions with musical attributes as the bridge to break
down the task into text-to-attribute understanding and attribute-to-music
generation stages. MuseCoCo stands for Music Composition Copilot that empowers
musicians to generate music directly from given text descriptions, offering a
significant improvement in efficiency compared to creating music entirely from
scratch. The system has two main advantages: Firstly, it is data efficient. In
the attribute-to-music generation stage, the attributes can be directly
extracted from music sequences, making the model training self-supervised. In
the text-to-attribute understanding stage, the text is synthesized and refined
by ChatGPT based on the defined attribute templates. Secondly, the system can
achieve precise control with specific attributes in text descriptions and
offers multiple control options through attribute-conditioned or
text-conditioned approaches. MuseCoco outperforms baseline systems in terms of
musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32
respectively. Besides, there is a notable enhancement of about 20% in objective
control accuracy. In addition, we have developed a robust large-scale model
with 1.2 billion parameters, showcasing exceptional controllability and
musicality.