PianoCoRe: Gecombineerd en Verfijnd Piano MIDI-databestand
PianoCoRe: Combined and Refined Piano MIDI Dataset
May 7, 2026
Auteurs: Ilya Borovik
cs.AI
Samenvatting
Symbolische muziekdatasets met bijbehorende partituren en uitvoeringen zijn essentieel voor veel muziekinformatie-onderzoektaken. Toch beslaan bestaande bronnen vaak een beperkt aantal componisten, vertonen ze weinig uitvoeringsvariatie, ontbreken nootniveau-uitlijningen of hanteren ze inconsistente naamgevingsformats. Dit werk presenteert PianoCoRe, een grootschalige pianodataset in MIDI-formaat die belangrijke open-source pianocorpora verenigt en verfijnt. De dataset bevat 250.046 uitvoeringen van 5.625 stukken geschreven door 483 componisten, in totaal goed voor 21.763 uur uitgevoerde muziek. PianoCoRe wordt vrijgegeven in gefaseerde subsets om verschillende toepassingen te ondersteunen: van grootschalige analyse en pre-training (PianoCoRe-C en gedupliceerde PianoCoRe-B) tot expressieve uitvoeringsmodellering met nootniveau-partituuruitlijning (PianoCoRe-A/A*). Het genotaligneerde subset, PianoCoRe-A, biedt de grootste open-source collectie van 157.207 uitvoeringen uitgelijnd met 1.591 partituren tot op heden. Naast de dataset omvatten de bijdragen: (1) een MIDI-kwaliteitsclassificator voor het detecteren van beschadigde en partituurachtige transcripties, en (2) RAScoP, een uitlijningsverfijningspijplijn die temporele uitlijningsfouten opruimt en ontbrekende noten interpoleert. De analyse toont aan dat de verfijning temporele ruis vermindert en tempo-uitbijters elimineert. Bovendien toont een expressief uitvoeringsrenderingsmodel getraind op PianoCoRe verbeterde robuustheid voor onbekende stukken in vergelijking met modellen getraind op ruwe of kleinere datasets. PianoCoRe biedt een direct bruikbare basis voor de volgende generatie onderzoek naar expressieve pianouitvoeringen.
English
Symbolic music datasets with matched scores and performances are essential for many music information retrieval (MIR) tasks. Yet, existing resources often cover a narrow range of composers, lack performance variety, omit note-level alignments, or use inconsistent naming formats. This work presents PianoCoRe, a large-scale piano MIDI dataset that unifies and refines major open-source piano corpora. The dataset contains 250,046 performances of 5,625 pieces written by 483 composers, totaling 21,763 h of performed music. PianoCoRe is released in tiered subsets to support different applications: from large-scale analysis and pre-training (PianoCoRe-C and deduplicated PianoCoRe-B) to expressive performance modeling with note-level score alignment (PianoCoRe-A/A*). The note-aligned subset, PianoCoRe-A, provides the largest open-source collection of 157,207 performances aligned to 1,591 scores to date. In addition to the dataset, the contributions are: (1) a MIDI quality classifier for detecting corrupted and score-like transcriptions and (2) RAScoP, an alignment refinement pipeline that cleans temporal alignment errors and interpolates missing notes. The analysis shows that the refinement reduces temporal noise and eliminates tempo outliers. Moreover, an expressive performance rendering model trained on PianoCoRe demonstrates improved robustness to unseen pieces compared to models trained on raw or smaller datasets. PianoCoRe provides a ready-to-use foundation for the next generation of expressive piano performance research.