BMdataset: Музыковедчески отобранный набор данных LilyPond
BMdataset: A Musicologically Curated LilyPond Dataset
April 12, 2026
Авторы: Matteo Spanio, Ilay Guler, Antonio Rodà
cs.AI
Аннотация
Исследования в области символической музыки почти исключительно опирались на наборы данных, основанные на MIDI; текстовые нотографические форматы, такие как LilyPond, оставались неисследованными для задач понимания музыки. Мы представляем BMdataset — музыковедчески курируемый набор данных, состоящий из 393 партитур в формате LilyPond (2646 частей), транскрибированных экспертами непосредственно с оригинальных барочных манускриптов, с метаданными, включающими композитора, музыкальную форму, инструментовку и атрибуты разделов. На основе этого ресурса мы представляем LilyBERT (веса модели доступны по адресу https://huggingface.co/csc-unipd/lilybert) — кодировщик на основе CodeBERT, адаптированный для символической музыки путём расширения словаря на 115 специфичных для LilyPond токенов и предварительного обучения по методу masked language model. Линейный probing на внедоменном корпусе Mutopia показывает, что, несмотря на скромный размер (~90 млн токенов), тонкая настройка только на BMdataset превосходит непрерывное дообучение на полном корпусе PDMX (~15 млрд токенов) как в классификации композиторов, так и в классификации стилей, демонстрируя, что небольшие, экспертно курируемые наборы данных могут быть эффективнее крупных, зашумленных корпусов для понимания музыки. Сочетание широкого предварительного обучения с предметной тонкой настройкой даёт наилучшие результаты в целом (точность определения композитора 84,3%), подтверждая, что эти два режима работы с данными являются взаимодополняющими. Мы публикуем набор данных, токенизатор и модель, чтобы установить базовый уровень для обучения репрезентаций на LilyPond.
English
Symbolic music research has relied almost exclusively on MIDI-based datasets; text-based engraving formats such as LilyPond remain unexplored for music understanding. We present BMdataset, a musicologically curated dataset of 393 LilyPond scores (2,646 movements) transcribed by experts directly from original Baroque manuscripts, with metadata covering composer, musical form, instrumentation, and sectional attributes. Building on this resource, we introduce LilyBERT (weights can be found at https://huggingface.co/csc-unipd/lilybert), a CodeBERT-based encoder adapted to symbolic music through vocabulary extension with 115 LilyPond-specific tokens and masked language model pre-training. Linear probing on the out-of-domain Mutopia corpus shows that, despite its modest size (~90M tokens), fine-tuning on BMdataset alone outperforms continuous pre-training on the full PDMX corpus (~15B tokens) for both composer and style classification, demonstrating that small, expertly curated datasets can be more effective than large, noisy corpora for music understanding. Combining broad pre-training with domain-specific fine-tuning yields the best results overall (84.3% composer accuracy), confirming that the two data regimes are complementary. We release the dataset, tokenizer, and model to establish a baseline for representation learning on LilyPond.