BMdataset: 음악학적으로 정제된 LilyPond 데이터셋
BMdataset: A Musicologically Curated LilyPond Dataset
April 12, 2026
저자: Matteo Spanio, Ilay Guler, Antonio Rodà
cs.AI
초록
상징 음악 연구는 거의 전적으로 MIDI 기반 데이터셋에 의존해왔으며, LilyPond와 같은 텍스트 기반 악보 조판 형식은 음악 이해를 위해 여전히 탐구되지 않고 있습니다. 본 논문에서는 BMdataset를 소개합니다. 이는 바로크 시대 원고를 전문가가 직접 전사한 393개의 LilyPond 악보(2,646개 악장)로 구성된 음악학적으로 정제된 데이터셋으로, 작곡가, 음악 형식, 악기 편성, 섹션 속성 등을 포함한 메타데이터를 제공합니다. 이 자원을 기반으로 CodeBERT 기반 인코더를 115개의 LilyPond 특화 토큰을 통한 어휘 확장과 마스크 언어 모델 사전 학습으로 상징 음악에 적용한 LilyBERT(가중치는 https://huggingface.co/csc-unipd/lilybert 에서 확인 가능)를 제안합니다. 외부 도메인 Mutopia 코퍼스에 대한 선형 탐사 결과, BMdataset만으로 미세 조정한 모델이 상대적으로 규모가 작음에도 불구하고(~90M 토큰) 전체 PDMX 코퍼스(~15B 토큰)를 지속적으로 사전 학습한 모델보다 작곡가 및 스타일 분류 모두에서 더 높은 성능을 보였습니다. 이는 음악 이해를 위해 크고 노이즈가 많은 코퍼스보다 소규모이지만 전문적으로 정제된 데이터셋이 더 효과적일 수 있음을 입증합니다. 광범위한 사전 학습과 도메인 특화 미세 조정을 결합했을 때 전체적으로 최상의 결과(84.3% 작곡가 정확도)를 얻었으며, 이 두 데이터 체계가 상호 보완적임을 확인했습니다. 저희는 데이터셋, 토크나이저, 모델을 공개하여 LilyPond 기반 표현 학습의 기준선을 마련하고자 합니다.
English
Symbolic music research has relied almost exclusively on MIDI-based datasets; text-based engraving formats such as LilyPond remain unexplored for music understanding. We present BMdataset, a musicologically curated dataset of 393 LilyPond scores (2,646 movements) transcribed by experts directly from original Baroque manuscripts, with metadata covering composer, musical form, instrumentation, and sectional attributes. Building on this resource, we introduce LilyBERT (weights can be found at https://huggingface.co/csc-unipd/lilybert), a CodeBERT-based encoder adapted to symbolic music through vocabulary extension with 115 LilyPond-specific tokens and masked language model pre-training. Linear probing on the out-of-domain Mutopia corpus shows that, despite its modest size (~90M tokens), fine-tuning on BMdataset alone outperforms continuous pre-training on the full PDMX corpus (~15B tokens) for both composer and style classification, demonstrating that small, expertly curated datasets can be more effective than large, noisy corpora for music understanding. Combining broad pre-training with domain-specific fine-tuning yields the best results overall (84.3% composer accuracy), confirming that the two data regimes are complementary. We release the dataset, tokenizer, and model to establish a baseline for representation learning on LilyPond.