MuPT: Um Transformador Pré-treinado Generativo para Música Simbólica
MuPT: A Generative Symbolic Music Pretrained Transformer
April 9, 2024
Autores: Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Resumo
Neste artigo, exploramos a aplicação de Modelos de Linguagem de Grande Escala (LLMs) ao pré-treinamento de música. Embora o uso predominante de MIDI na modelagem musical seja bem estabelecido, nossos achados sugerem que os LLMs são intrinsecamente mais compatíveis com a Notação ABC, que se alinha mais de perto com seu design e pontos fortes, melhorando assim o desempenho do modelo na composição musical. Para abordar os desafios associados a medidas desalinhadas de diferentes faixas durante a geração, propomos o desenvolvimento de uma Notação ABC Multi-Faixa Sincronizada (SMT-ABC Notation), que visa preservar a coerência entre múltiplas faixas musicais. Nossas contribuições incluem uma série de modelos capazes de lidar com até 8192 tokens, cobrindo 90\% dos dados de música simbólica em nosso conjunto de treinamento. Além disso, exploramos as implicações da Lei de Escalonamento de Música Simbólica (SMS Law) no desempenho do modelo. Os resultados indicam uma direção promissora para pesquisas futuras em geração musical, oferecendo recursos extensivos para pesquisas lideradas pela comunidade por meio de nossas contribuições de código aberto.
English
In this paper, we explore the application of Large Language Models (LLMs) to
the pre-training of music. While the prevalent use of MIDI in music modeling is
well-established, our findings suggest that LLMs are inherently more compatible
with ABC Notation, which aligns more closely with their design and strengths,
thereby enhancing the model's performance in musical composition. To address
the challenges associated with misaligned measures from different tracks during
generation, we propose the development of a Synchronized
Multi-Track ABC Notation (SMT-ABC Notation),
which aims to preserve coherence across multiple musical tracks. Our
contributions include a series of models capable of handling up to 8192 tokens,
covering 90\% of the symbolic music data in our training set. Furthermore, we
explore the implications of the Symbolic Music
Scaling Law (SMS Law) on model performance. The results
indicate a promising direction for future research in music generation,
offering extensive resources for community-led research through our open-source
contributions.