BMdataset: Um Conjunto de Dados LilyPond Curationado Musicologicamente

Resumo

A investigação em música simbólica tem dependido quase exclusivamente de conjuntos de dados baseados em MIDI; formatos de notação baseados em texto, como o LilyPond, permanecem inexplorados para a compreensão musical. Apresentamos o BMdataset, um conjunto de dados musicologicamente curado de 393 partituras LilyPond (2.646 movimentos) transcritas por especialistas diretamente de manuscritos barrocos originais, com metadados que abrangem compositor, forma musical, instrumentação e atributos seccionais. Com base neste recurso, introduzimos o LilyBERT (os pesos podem ser encontrados em https://huggingface.co/csc-unipd/lilybert), um codificador baseado no CodeBERT adaptado para música simbólica através da extensão do vocabulário com 115 tokens específicos do LilyPond e pré-treinamento de modelo de linguagem mascarada. A sondagem linear no corpus Mutopia (fora do domínio) mostra que, apesar do seu tamanho modesto (~90M de tokens), o ajuste fino apenas no BMdataset supera o pré-treinamento contínuo no corpus PDMX completo (~15B de tokens) tanto para classificação de compositor como de estilo, demonstrando que conjuntos de dados pequenos e curados por especialistas podem ser mais eficazes do que corpora grandes e ruidosos para a compreensão musical. A combinação de pré-treinamento amplo com ajuste fino específico de domínio produz os melhores resultados no geral (84,3% de precisão para compositor), confirmando que os dois regimes de dados são complementares. Disponibilizamos o conjunto de dados, o tokenizador e o modelo para estabelecer uma linha de base para a aprendizagem de representação em LilyPond.

English

Symbolic music research has relied almost exclusively on MIDI-based datasets; text-based engraving formats such as LilyPond remain unexplored for music understanding. We present BMdataset, a musicologically curated dataset of 393 LilyPond scores (2,646 movements) transcribed by experts directly from original Baroque manuscripts, with metadata covering composer, musical form, instrumentation, and sectional attributes. Building on this resource, we introduce LilyBERT (weights can be found at https://huggingface.co/csc-unipd/lilybert), a CodeBERT-based encoder adapted to symbolic music through vocabulary extension with 115 LilyPond-specific tokens and masked language model pre-training. Linear probing on the out-of-domain Mutopia corpus shows that, despite its modest size (~90M tokens), fine-tuning on BMdataset alone outperforms continuous pre-training on the full PDMX corpus (~15B tokens) for both composer and style classification, demonstrating that small, expertly curated datasets can be more effective than large, noisy corpora for music understanding. Combining broad pre-training with domain-specific fine-tuning yields the best results overall (84.3% composer accuracy), confirming that the two data regimes are complementary. We release the dataset, tokenizer, and model to establish a baseline for representation learning on LilyPond.

BMdataset: Um Conjunto de Dados LilyPond Curationado Musicologicamente

BMdataset: A Musicologically Curated LilyPond Dataset

Resumo

Support