ChatPaper.aiChatPaper

PianoCoRe : Ensemble de données MIDI pour piano combiné et raffiné

PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7, 2026
Auteurs: Ilya Borovik
cs.AI

Résumé

Les ensembles de données de musique symbolique avec partitions et interprétations appariées sont essentiels pour de nombreuses tâches de recherche d'information musicale (MIR). Cependant, les ressources existantes couvrent souvent une gamme étroite de compositeurs, manquent de variété interprétative, omettent les alignements au niveau de la note ou utilisent des formats de dénomination incohérents. Ce travail présente PianoCoRe, un vaste ensemble de données MIDI pour piano qui unifie et affine les principaux corpus open-source pour piano. Le jeu de données contient 250 046 interprétations de 5 625 pièces écrites par 483 compositeurs, totalisant 21 763 heures de musique interprétée. PianoCoRe est publié en sous-ensembles hiérarchisés pour prendre en charge différentes applications : de l'analyse à grande échelle et du pré-entraînement (PianoCoRe-C et PianoCoRe-B dédupliqué) à la modélisation expressive de l'interprétation avec alignement partition au niveau de la note (PianoCoRe-A/A*). Le sous-ensemble aligné au niveau de la note, PianoCoRe-A, constitue la plus grande collection open-source à ce jour de 157 207 interprétations alignées avec 1 591 partitions. Outre le jeu de données, les contributions sont : (1) un classificateur de qualité MIDI pour détecter les transcriptions corrompues et similaires à des partitions, et (2) RAScoP, un pipeline de raffinement d'alignement qui nettoie les erreurs d'alignement temporel et interpole les notes manquantes. L'analyse montre que le raffinement réduit le bruit temporel et élimine les valeurs aberrantes de tempo. De plus, un modèle de rendu d'interprétation expressive entraîné sur PianoCoRe démontre une robustesse améliorée face à des pièces inédites par rapport aux modèles entraînés sur des données brutes ou des ensembles plus petits. PianoCoRe fournit une base prête à l'emploi pour la prochaine génération de recherche sur l'interprétation expressive au piano.
English
Symbolic music datasets with matched scores and performances are essential for many music information retrieval (MIR) tasks. Yet, existing resources often cover a narrow range of composers, lack performance variety, omit note-level alignments, or use inconsistent naming formats. This work presents PianoCoRe, a large-scale piano MIDI dataset that unifies and refines major open-source piano corpora. The dataset contains 250,046 performances of 5,625 pieces written by 483 composers, totaling 21,763 h of performed music. PianoCoRe is released in tiered subsets to support different applications: from large-scale analysis and pre-training (PianoCoRe-C and deduplicated PianoCoRe-B) to expressive performance modeling with note-level score alignment (PianoCoRe-A/A*). The note-aligned subset, PianoCoRe-A, provides the largest open-source collection of 157,207 performances aligned to 1,591 scores to date. In addition to the dataset, the contributions are: (1) a MIDI quality classifier for detecting corrupted and score-like transcriptions and (2) RAScoP, an alignment refinement pipeline that cleans temporal alignment errors and interpolates missing notes. The analysis shows that the refinement reduces temporal noise and eliminates tempo outliers. Moreover, an expressive performance rendering model trained on PianoCoRe demonstrates improved robustness to unseen pieces compared to models trained on raw or smaller datasets. PianoCoRe provides a ready-to-use foundation for the next generation of expressive piano performance research.
PDF11May 9, 2026