MuPT: Un Trasformatore Pre-addestrato Generativo per Musica Simbolica

Abstract

In questo articolo, esploriamo l'applicazione dei Large Language Models (LLM) al pre-training musicale. Sebbene l'uso prevalente del MIDI nella modellazione musicale sia ben consolidato, i nostri risultati suggeriscono che i LLM sono intrinsecamente più compatibili con la notazione ABC, che si allinea più strettamente al loro design e ai loro punti di forza, migliorando così le prestazioni del modello nella composizione musicale. Per affrontare le sfide legate alla disallineazione delle misure provenienti da diverse tracce durante la generazione, proponiamo lo sviluppo di una notazione ABC Multi-Traccia Sincronizzata (SMT-ABC Notation), che mira a preservare la coerenza tra più tracce musicali. I nostri contributi includono una serie di modelli in grado di gestire fino a 8192 token, coprendo il 90\% dei dati musicali simbolici nel nostro set di addestramento. Inoltre, esploriamo le implicazioni della Legge di Scalabilità della Musica Simbolica (SMS Law) sulle prestazioni del modello. I risultati indicano una direzione promettente per la ricerca futura nella generazione musicale, offrendo ampie risorse per la ricerca guidata dalla comunità attraverso i nostri contributi open-source.

English

In this paper, we explore the application of Large Language Models (LLMs) to the pre-training of music. While the prevalent use of MIDI in music modeling is well-established, our findings suggest that LLMs are inherently more compatible with ABC Notation, which aligns more closely with their design and strengths, thereby enhancing the model's performance in musical composition. To address the challenges associated with misaligned measures from different tracks during generation, we propose the development of a Synchronized Multi-Track ABC Notation (SMT-ABC Notation), which aims to preserve coherence across multiple musical tracks. Our contributions include a series of models capable of handling up to 8192 tokens, covering 90\% of the symbolic music data in our training set. Furthermore, we explore the implications of the Symbolic Music Scaling Law (SMS Law) on model performance. The results indicate a promising direction for future research in music generation, offering extensive resources for community-led research through our open-source contributions.

MuPT: Un Trasformatore Pre-addestrato Generativo per Musica Simbolica

MuPT: A Generative Symbolic Music Pretrained Transformer

Abstract

Support