BMdataset: Un Conjunto de Datos LilyPond Creado con Criterios Musicológicos

Resumen

La investigación musical simbólica ha dependido casi exclusivamente de conjuntos de datos basados en MIDI; los formatos de notación basados en texto, como LilyPond, han permanecido inexplorados para la comprensión musical. Presentamos BMdataset, un conjunto de datos musicológico curado que contiene 393 partituras en LilyPond (2.646 movimientos) transcritas por expertos directamente de manuscritos barrocos originales, con metadatos que cubren compositor, forma musical, instrumentación y atributos seccionales. Sobre la base de este recurso, presentamos LilyBERT (los pesos pueden encontrarse en https://huggingface.co/csc-unipd/lilybert), un codificador basado en CodeBERT adaptado a la música simbólica mediante la extensión del vocabulario con 115 tokens específicos de LilyPond y un pre-entrenamiento con modelo de lenguaje enmascarado. Un análisis lineal (linear probing) en el corpus Mutopia, fuera del dominio, muestra que, a pesar de su tamaño modesto (~90M tokens), el ajuste fino (fine-tuning) utilizando únicamente BMdataset supera al pre-entrenamiento continuo en el corpus PDMX completo (~15B tokens) tanto en la clasificación de compositores como de estilos, demostrando que los conjuntos de datos pequeños y curados por expertos pueden ser más efectivos que los corpus grandes y ruidosos para la comprensión musical. La combinación de un pre-entrenamiento amplio con un ajuste fino específico del dominio produce los mejores resultados en general (84.3% de precisión en compositor), confirmando que los dos regímenes de datos son complementarios. Publicamos el conjunto de datos, el tokenizador y el modelo para establecer una línea base para el aprendizaje de representaciones en LilyPond.

English

Symbolic music research has relied almost exclusively on MIDI-based datasets; text-based engraving formats such as LilyPond remain unexplored for music understanding. We present BMdataset, a musicologically curated dataset of 393 LilyPond scores (2,646 movements) transcribed by experts directly from original Baroque manuscripts, with metadata covering composer, musical form, instrumentation, and sectional attributes. Building on this resource, we introduce LilyBERT (weights can be found at https://huggingface.co/csc-unipd/lilybert), a CodeBERT-based encoder adapted to symbolic music through vocabulary extension with 115 LilyPond-specific tokens and masked language model pre-training. Linear probing on the out-of-domain Mutopia corpus shows that, despite its modest size (~90M tokens), fine-tuning on BMdataset alone outperforms continuous pre-training on the full PDMX corpus (~15B tokens) for both composer and style classification, demonstrating that small, expertly curated datasets can be more effective than large, noisy corpora for music understanding. Combining broad pre-training with domain-specific fine-tuning yields the best results overall (84.3% composer accuracy), confirming that the two data regimes are complementary. We release the dataset, tokenizer, and model to establish a baseline for representation learning on LilyPond.

BMdataset: Un Conjunto de Datos LilyPond Creado con Criterios Musicológicos

BMdataset: A Musicologically Curated LilyPond Dataset

Resumen

Support