ChatPaper.aiChatPaper

MuPT: Ein generatives symbolisches Musik vortrainiertes Transformer-Modell

MuPT: A Generative Symbolic Music Pretrained Transformer

April 9, 2024
Autoren: Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI

Zusammenfassung

In diesem Paper untersuchen wir die Anwendung von Large Language Models (LLMs) auf das Pre-Training von Musik. Während die vorherrschende Verwendung von MIDI in der Musikmodellierung gut etabliert ist, legen unsere Ergebnisse nahe, dass LLMs von Natur aus besser mit der ABC-Notation kompatibel sind, die enger mit ihrem Design und ihren Stärken übereinstimmt und somit die Leistung des Modells in der musikalischen Komposition verbessert. Um den Herausforderungen im Umgang mit nicht übereinstimmenden Maßen aus verschiedenen Spuren während der Generierung zu begegnen, schlagen wir die Entwicklung einer Synchronized Multi-Track ABC-Notation (SMT-ABC-Notation) vor, die darauf abzielt, die Kohärenz über mehrere Musikspuren hinweg zu bewahren. Unsere Beiträge umfassen eine Reihe von Modellen, die bis zu 8192 Tokens verarbeiten können und 90\% der symbolischen Musikdaten in unserem Trainingsset abdecken. Darüber hinaus untersuchen wir die Auswirkungen des Symbolic Music Scaling Law (SMS Law) auf die Modellleistung. Die Ergebnisse deuten auf eine vielversprechende Richtung für zukünftige Forschung in der Musikgenerierung hin und bieten umfangreiche Ressourcen für communitybasierte Forschung durch unsere Open-Source-Beiträge.
English
In this paper, we explore the application of Large Language Models (LLMs) to the pre-training of music. While the prevalent use of MIDI in music modeling is well-established, our findings suggest that LLMs are inherently more compatible with ABC Notation, which aligns more closely with their design and strengths, thereby enhancing the model's performance in musical composition. To address the challenges associated with misaligned measures from different tracks during generation, we propose the development of a Synchronized Multi-Track ABC Notation (SMT-ABC Notation), which aims to preserve coherence across multiple musical tracks. Our contributions include a series of models capable of handling up to 8192 tokens, covering 90\% of the symbolic music data in our training set. Furthermore, we explore the implications of the Symbolic Music Scaling Law (SMS Law) on model performance. The results indicate a promising direction for future research in music generation, offering extensive resources for community-led research through our open-source contributions.

Summary

AI-Generated Summary

PDF160December 15, 2024