MuPT : Un transformeur pré-entraîné génératif pour la musique symbolique
MuPT: A Generative Symbolic Music Pretrained Transformer
April 9, 2024
Auteurs: Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Résumé
Dans cet article, nous explorons l'application des modèles de langage à grande échelle (LLMs) au pré-entraînement pour la musique. Bien que l'utilisation prédominante du MIDI dans la modélisation musicale soit bien établie, nos résultats suggèrent que les LLMs sont intrinsèquement plus compatibles avec la notation ABC, qui s'aligne davantage avec leur conception et leurs forces, améliorant ainsi les performances du modèle en composition musicale. Pour répondre aux défis liés à la désynchronisation des mesures entre différentes pistes lors de la génération, nous proposons le développement d'une notation ABC multi-pistes synchronisée (SMT-ABC Notation), visant à préserver la cohérence entre plusieurs pistes musicales. Nos contributions incluent une série de modèles capables de gérer jusqu'à 8192 tokens, couvrant 90 % des données de musique symbolique dans notre ensemble d'entraînement. De plus, nous explorons les implications de la loi d'échelle de la musique symbolique (SMS Law) sur les performances du modèle. Les résultats indiquent une direction prometteuse pour les recherches futures en génération musicale, offrant des ressources étendues pour la recherche communautaire grâce à nos contributions open-source.
English
In this paper, we explore the application of Large Language Models (LLMs) to
the pre-training of music. While the prevalent use of MIDI in music modeling is
well-established, our findings suggest that LLMs are inherently more compatible
with ABC Notation, which aligns more closely with their design and strengths,
thereby enhancing the model's performance in musical composition. To address
the challenges associated with misaligned measures from different tracks during
generation, we propose the development of a Synchronized
Multi-Track ABC Notation (SMT-ABC Notation),
which aims to preserve coherence across multiple musical tracks. Our
contributions include a series of models capable of handling up to 8192 tokens,
covering 90\% of the symbolic music data in our training set. Furthermore, we
explore the implications of the Symbolic Music
Scaling Law (SMS Law) on model performance. The results
indicate a promising direction for future research in music generation,
offering extensive resources for community-led research through our open-source
contributions.Summary
AI-Generated Summary