PianoCoRe:統合および精選されたピアノMIDIデータセット
PianoCoRe: Combined and Refined Piano MIDI Dataset
May 7, 2026
著者: Ilya Borovik
cs.AI
要旨
楽譜と演奏が対応する記号音楽データセットは、多くの音楽情報検索(MIR)タスクにおいて不可欠である。しかし、既存のリソースは作曲家の範囲が狭い、演奏の多様性に欠ける、音符レベルのアライメントが省略されている、命名形式が一貫していない、などの課題を抱えている。本研究では、主要なオープンソースのピアノコーパスを統合・精緻化した大規模ピアノMIDIデータセット「PianoCoRe」を提案する。本データセットは、483人の作曲家による5,625曲の楽曲に対応する250,046件の演奏を含み、演奏時間の総計は21,763時間に及ぶ。PianoCoReは、様々な応用を支援するため階層化されたサブセットとして公開されている:大規模分析と事前学習向け(PianoCoRe-Cおよび重複排除済みPianoCoRe-B)から、音符レベルの楽譜アライメントを伴う表現的演奏モデリング向け(PianoCoRe-A/A*)まで。音符アライメント済みサブセットであるPianoCoRe-Aは、1,591の楽譜に対応する157,207件の演奏を提供し、現時点で最大のオープンソースコレクションである。データセットに加え、本研究の貢献は以下の通りである:(1)破損したMIDIや楽譜に類似したトランスクリプションを検出するためのMIDI品質分類器、(2)時間的アライメント誤差を除去し欠損音符を補間するアライメント精緻化パイプライン「RAScoP」。分析により、この精緻化処理が時間ノイズを低減し、テンポの外れ値を除去することが示された。さらに、PianoCoReで学習した表現的演奏生成モデルは、未加工または小規模データセットで学習したモデルと比較して、未見の楽曲に対するロバスト性の向上が確認された。PianoCoReは、次世代の表現的ピアノ演奏研究のための、すぐに利用できる基盤を提供する。
English
Symbolic music datasets with matched scores and performances are essential for many music information retrieval (MIR) tasks. Yet, existing resources often cover a narrow range of composers, lack performance variety, omit note-level alignments, or use inconsistent naming formats. This work presents PianoCoRe, a large-scale piano MIDI dataset that unifies and refines major open-source piano corpora. The dataset contains 250,046 performances of 5,625 pieces written by 483 composers, totaling 21,763 h of performed music. PianoCoRe is released in tiered subsets to support different applications: from large-scale analysis and pre-training (PianoCoRe-C and deduplicated PianoCoRe-B) to expressive performance modeling with note-level score alignment (PianoCoRe-A/A*). The note-aligned subset, PianoCoRe-A, provides the largest open-source collection of 157,207 performances aligned to 1,591 scores to date. In addition to the dataset, the contributions are: (1) a MIDI quality classifier for detecting corrupted and score-like transcriptions and (2) RAScoP, an alignment refinement pipeline that cleans temporal alignment errors and interpolates missing notes. The analysis shows that the refinement reduces temporal noise and eliminates tempo outliers. Moreover, an expressive performance rendering model trained on PianoCoRe demonstrates improved robustness to unseen pieces compared to models trained on raw or smaller datasets. PianoCoRe provides a ready-to-use foundation for the next generation of expressive piano performance research.