PianoCoRe: 통합 및 정제된 피아노 MIDI 데이터셋
PianoCoRe: Combined and Refined Piano MIDI Dataset
May 7, 2026
저자: Ilya Borovik
cs.AI
초록
악보와 연주가 매칭된 기호 음악 데이터셋은 많은 음악 정보 검색(MIR) 작업에 필수적입니다. 그러나 기존 자료들은 작곡가 범위가 제한적이고, 연주 다양성이 부족하며, 음표 수준 정렬이 생략되거나, 일관성 없는 명명 형식을 사용하는 경우가 많습니다. 본 연구는 주요 오픈소스 피아노 코퍼스를 통합 및 정제한 대규모 피아노 MIDI 데이터셋인 PianoCoRe를 소개합니다. 이 데이터셋은 483명의 작곡가가 작곡한 5,625개의 곡에 대한 250,046개의 연주를 포함하며, 총 연주 음악 시간은 21,763시간에 달합니다. PianoCoRe는 다양한 응용 프로그램을 지원하기 위해 계층화된 하위 집합으로 공개됩니다: 대규모 분석 및 사전 학습(PianoCoRe-C 및 중복 제거된 PianoCoRe-B)부터 음표 수준 악보 정렬이 포함된 표현적 연주 모델링(PianoCoRe-A/A*)까지. 음표 정렬 하위 집합인 PianoCoRe-A는 현재까지 오픈소스로 공개된 것 중 가장 큰 규모의 1,591개 악보와 정렬된 157,207개 연주 컬렉션을 제공합니다. 데이터셋 외에도 본 연구의 기여점은 다음과 같습니다: (1) 손상되었거나 악보와 유사한 트랜스크립션을 detect하기 위한 MIDI 품질 분류기, (2) 시간적 정렬 오류를 정리하고 누락된 음표를 보간하는 정렬 정제 파이프라인인 RAScoP. 분석 결과, 정제 과정을 통해 시간적 노이즈가 감소하고 템포 이상치가 제거되는 것으로 나타났습니다. 또한, PianoCoRe로 학습된 표현적 연주 렌더링 모델은 원본 또는 더 작은 데이터셋으로 학습된 모델에 비해 보지 못한 곡에 대한 견고성이 향상되었음을 보여줍니다. PianoCoRe는 차세대 표현적 피아노 연주 연구를 위한 바로 사용 가능한 기반을 제공합니다.
English
Symbolic music datasets with matched scores and performances are essential for many music information retrieval (MIR) tasks. Yet, existing resources often cover a narrow range of composers, lack performance variety, omit note-level alignments, or use inconsistent naming formats. This work presents PianoCoRe, a large-scale piano MIDI dataset that unifies and refines major open-source piano corpora. The dataset contains 250,046 performances of 5,625 pieces written by 483 composers, totaling 21,763 h of performed music. PianoCoRe is released in tiered subsets to support different applications: from large-scale analysis and pre-training (PianoCoRe-C and deduplicated PianoCoRe-B) to expressive performance modeling with note-level score alignment (PianoCoRe-A/A*). The note-aligned subset, PianoCoRe-A, provides the largest open-source collection of 157,207 performances aligned to 1,591 scores to date. In addition to the dataset, the contributions are: (1) a MIDI quality classifier for detecting corrupted and score-like transcriptions and (2) RAScoP, an alignment refinement pipeline that cleans temporal alignment errors and interpolates missing notes. The analysis shows that the refinement reduces temporal noise and eliminates tempo outliers. Moreover, an expressive performance rendering model trained on PianoCoRe demonstrates improved robustness to unseen pieces compared to models trained on raw or smaller datasets. PianoCoRe provides a ready-to-use foundation for the next generation of expressive piano performance research.