MuPT: Un Trasformatore Pre-addestrato Generativo per Musica Simbolica
MuPT: A Generative Symbolic Music Pretrained Transformer
April 9, 2024
Autori: Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Abstract
In questo articolo, esploriamo l'applicazione dei Large Language Models (LLM) al pre-training musicale. Sebbene l'uso prevalente del MIDI nella modellazione musicale sia ben consolidato, i nostri risultati suggeriscono che i LLM sono intrinsecamente più compatibili con la notazione ABC, che si allinea più strettamente al loro design e ai loro punti di forza, migliorando così le prestazioni del modello nella composizione musicale. Per affrontare le sfide legate alla disallineazione delle misure provenienti da diverse tracce durante la generazione, proponiamo lo sviluppo di una notazione ABC Multi-Traccia Sincronizzata (SMT-ABC Notation), che mira a preservare la coerenza tra più tracce musicali. I nostri contributi includono una serie di modelli in grado di gestire fino a 8192 token, coprendo il 90\% dei dati musicali simbolici nel nostro set di addestramento. Inoltre, esploriamo le implicazioni della Legge di Scalabilità della Musica Simbolica (SMS Law) sulle prestazioni del modello. I risultati indicano una direzione promettente per la ricerca futura nella generazione musicale, offrendo ampie risorse per la ricerca guidata dalla comunità attraverso i nostri contributi open-source.
English
In this paper, we explore the application of Large Language Models (LLMs) to
the pre-training of music. While the prevalent use of MIDI in music modeling is
well-established, our findings suggest that LLMs are inherently more compatible
with ABC Notation, which aligns more closely with their design and strengths,
thereby enhancing the model's performance in musical composition. To address
the challenges associated with misaligned measures from different tracks during
generation, we propose the development of a Synchronized
Multi-Track ABC Notation (SMT-ABC Notation),
which aims to preserve coherence across multiple musical tracks. Our
contributions include a series of models capable of handling up to 8192 tokens,
covering 90\% of the symbolic music data in our training set. Furthermore, we
explore the implications of the Symbolic Music
Scaling Law (SMS Law) on model performance. The results
indicate a promising direction for future research in music generation,
offering extensive resources for community-led research through our open-source
contributions.