BMdataset: Ein musikwissenschaftlich kuratiertes LilyPond-Dataset
BMdataset: A Musicologically Curated LilyPond Dataset
April 12, 2026
Autoren: Matteo Spanio, Ilay Guler, Antonio Rodà
cs.AI
Zusammenfassung
Die Forschung im Bereich symbolischer Musik stützt sich fast ausschließlich auf MIDI-basierte Datensätze; textbasierte Notensatzformate wie LilyPond bleiben für das Musikverständnis unerschlossen. Wir stellen BMdataset vor, einen musikologisch kuratierten Datensatz von 393 LilyPond-Partituren (2.646 Sätze), die von Experten direkt aus originalen Barockmanuskripten transkribiert wurden, mit Metadaten zu Komponist, musikalischer Form, Besetzung und satzweisen Attributen. Aufbauend auf dieser Ressource führen wir LilyBERT (Gewichte sind unter https://huggingface.co/csc-unipd/lilybert verfügbar) ein, einen auf CodeBERT basierenden Encoder, der durch Vokabularerweiterung um 115 LilyPond-spezifische Tokens und Masked-Language-Model-Pre-training an symbolische Musik angepasst wurde. Linear Probing auf dem out-of-domain Mutopia-Korpus zeigt, dass trotz der bescheidenen Größe (~90 Mio. Tokens) das Fine-Tuning allein auf BMdataset sowohl bei der Komponisten- als auch bei der Stilklassifikation das kontinuierliche Pre-training auf dem vollständigen PDMX-Korpus (~15 Mrd. Tokens) übertrifft. Dies demonstriert, dass kleine, fachkundig kuratierte Datensätze für das Musikverständnis effektiver sein können als große, verrauschte Korpora. Die Kombination von breitem Pre-training mit domänenspezifischem Fine-tuning erzielt die insgesamt besten Ergebnisse (84,3% Genauigkeit bei Komponisten) und bestätigt, dass die beiden Datenregime komplementär sind. Wir veröffentlichen den Datensatz, Tokenizer und das Modell, um eine Baseline für Representation Learning auf LilyPond zu etablieren.
English
Symbolic music research has relied almost exclusively on MIDI-based datasets; text-based engraving formats such as LilyPond remain unexplored for music understanding. We present BMdataset, a musicologically curated dataset of 393 LilyPond scores (2,646 movements) transcribed by experts directly from original Baroque manuscripts, with metadata covering composer, musical form, instrumentation, and sectional attributes. Building on this resource, we introduce LilyBERT (weights can be found at https://huggingface.co/csc-unipd/lilybert), a CodeBERT-based encoder adapted to symbolic music through vocabulary extension with 115 LilyPond-specific tokens and masked language model pre-training. Linear probing on the out-of-domain Mutopia corpus shows that, despite its modest size (~90M tokens), fine-tuning on BMdataset alone outperforms continuous pre-training on the full PDMX corpus (~15B tokens) for both composer and style classification, demonstrating that small, expertly curated datasets can be more effective than large, noisy corpora for music understanding. Combining broad pre-training with domain-specific fine-tuning yields the best results overall (84.3% composer accuracy), confirming that the two data regimes are complementary. We release the dataset, tokenizer, and model to establish a baseline for representation learning on LilyPond.