BMdataset: un dataset LilyPond curato musicologicamente

Abstract

La ricerca sulla musica simbolica si è basata quasi esclusivamente su dataset in formato MIDI; i formati di notazione basati su testo come LilyPond rimangono inesplorati per la comprensione musicale. Presentiamo BMdataset, un dataset musicologicamente curato di 393 partiture LilyPond (2.646 movimenti) trascritte da esperti direttamente da manoscritti barocchi originali, con metadati che coprono compositore, forma musicale, organico e attributi sezionali. Basandoci su questa risorsa, introduciamo LilyBERT (i pesi sono disponibili su https://huggingface.co/csc-unipd/lilybert), un encoder basato su CodeBERT adattato alla musica simbolica tramite l'estensione del vocabolario con 115 token specifici di LilyPond e un pre-training con modello di linguaggio mascherato. Il linear probing sul corpus Mutopia (out-of-domain) mostra che, nonostante le sue dimensioni modeste (~90 milioni di token), il fine-tuning sul solo BMdataset supera il pre-training continuo sull'intero corpus PDMX (~15 miliardi di token) sia per la classificazione del compositore che dello stile, dimostrando che piccoli dataset, accuratamente curati da esperti, possono essere più efficaci di grandi corpora rumorosi per la comprensione musicale. La combinazione di un pre-training ampio con un fine-tuning dominio-specifico produce i migliori risultati complessivi (84,3% di accuratezza sul compositore), confermando che i due regimi di dati sono complementari. Rilasciamo il dataset, il tokenizer e il modello per stabilire un baseline per l'apprendimento di rappresentazioni su LilyPond.

English

Symbolic music research has relied almost exclusively on MIDI-based datasets; text-based engraving formats such as LilyPond remain unexplored for music understanding. We present BMdataset, a musicologically curated dataset of 393 LilyPond scores (2,646 movements) transcribed by experts directly from original Baroque manuscripts, with metadata covering composer, musical form, instrumentation, and sectional attributes. Building on this resource, we introduce LilyBERT (weights can be found at https://huggingface.co/csc-unipd/lilybert), a CodeBERT-based encoder adapted to symbolic music through vocabulary extension with 115 LilyPond-specific tokens and masked language model pre-training. Linear probing on the out-of-domain Mutopia corpus shows that, despite its modest size (~90M tokens), fine-tuning on BMdataset alone outperforms continuous pre-training on the full PDMX corpus (~15B tokens) for both composer and style classification, demonstrating that small, expertly curated datasets can be more effective than large, noisy corpora for music understanding. Combining broad pre-training with domain-specific fine-tuning yields the best results overall (84.3% composer accuracy), confirming that the two data regimes are complementary. We release the dataset, tokenizer, and model to establish a baseline for representation learning on LilyPond.

BMdataset: un dataset LilyPond curato musicologicamente

BMdataset: A Musicologically Curated LilyPond Dataset

Abstract

Support