MuPT: Un Transformer Generativo Simbólico de Música Preentrenado
MuPT: A Generative Symbolic Music Pretrained Transformer
April 9, 2024
Autores: Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Resumen
En este artículo, exploramos la aplicación de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) al preentrenamiento de música. Si bien el uso predominante de MIDI en el modelado musical está bien establecido, nuestros hallazgos sugieren que los LLMs son inherentemente más compatibles con la Notación ABC, que se alinea más estrechamente con su diseño y fortalezas, mejorando así el rendimiento del modelo en la composición musical. Para abordar los desafíos asociados con las medidas desalineadas de diferentes pistas durante la generación, proponemos el desarrollo de una Notación ABC Multi-Pista Sincronizada (SMT-ABC Notation), que tiene como objetivo preservar la coherencia entre múltiples pistas musicales. Nuestras contribuciones incluyen una serie de modelos capaces de manejar hasta 8192 tokens, cubriendo el 90\% de los datos de música simbólica en nuestro conjunto de entrenamiento. Además, exploramos las implicaciones de la Ley de Escalado de Música Simbólica (SMS Law) en el rendimiento del modelo. Los resultados indican una dirección prometedora para futuras investigaciones en generación musical, ofreciendo recursos extensos para la investigación liderada por la comunidad a través de nuestras contribuciones de código abierto.
English
In this paper, we explore the application of Large Language Models (LLMs) to
the pre-training of music. While the prevalent use of MIDI in music modeling is
well-established, our findings suggest that LLMs are inherently more compatible
with ABC Notation, which aligns more closely with their design and strengths,
thereby enhancing the model's performance in musical composition. To address
the challenges associated with misaligned measures from different tracks during
generation, we propose the development of a Synchronized
Multi-Track ABC Notation (SMT-ABC Notation),
which aims to preserve coherence across multiple musical tracks. Our
contributions include a series of models capable of handling up to 8192 tokens,
covering 90\% of the symbolic music data in our training set. Furthermore, we
explore the implications of the Symbolic Music
Scaling Law (SMS Law) on model performance. The results
indicate a promising direction for future research in music generation,
offering extensive resources for community-led research through our open-source
contributions.