ChatPaper.aiChatPaper

MuPT: Een Generatieve Symbolische Muziek Pretrained Transformer

MuPT: A Generative Symbolic Music Pretrained Transformer

April 9, 2024
Auteurs: Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI

Samenvatting

In dit artikel onderzoeken we de toepassing van Large Language Models (LLMs) op het vooraf trainen van muziek. Hoewel het gebruik van MIDI in muziekmodellering algemeen ingeburgerd is, suggereren onze bevindingen dat LLMs inherent beter compatibel zijn met ABC-notatie, wat meer aansluit bij hun ontwerp en sterke punten, waardoor de prestaties van het model in muzikale compositie worden verbeterd. Om de uitdagingen aan te pakken die gepaard gaan met niet-uitgelijnde maten van verschillende sporen tijdens de generatie, stellen we de ontwikkeling voor van een Gesynchroniseerde Multi-Track ABC-notatie (SMT-ABC-notatie), die gericht is op het behoud van samenhang over meerdere muzikale sporen. Onze bijdragen omvatten een reeks modellen die tot 8192 tokens aankunnen, waarmee 90\% van de symbolische muziekgegevens in onze trainingsset wordt gedekt. Daarnaast onderzoeken we de implicaties van de Symbolic Music Scaling Law (SMS Law) op de modelprestaties. De resultaten wijzen op een veelbelovende richting voor toekomstig onderzoek in muziekgeneratie, waarbij we uitgebreide bronnen bieden voor door de gemeenschap geleid onderzoek via onze open-source bijdragen.
English
In this paper, we explore the application of Large Language Models (LLMs) to the pre-training of music. While the prevalent use of MIDI in music modeling is well-established, our findings suggest that LLMs are inherently more compatible with ABC Notation, which aligns more closely with their design and strengths, thereby enhancing the model's performance in musical composition. To address the challenges associated with misaligned measures from different tracks during generation, we propose the development of a Synchronized Multi-Track ABC Notation (SMT-ABC Notation), which aims to preserve coherence across multiple musical tracks. Our contributions include a series of models capable of handling up to 8192 tokens, covering 90\% of the symbolic music data in our training set. Furthermore, we explore the implications of the Symbolic Music Scaling Law (SMS Law) on model performance. The results indicate a promising direction for future research in music generation, offering extensive resources for community-led research through our open-source contributions.
PDF160December 15, 2024