ChatPaper.aiChatPaper

PianoCoRe: Kombinierter und verfeinerter Piano-MIDI-Datensatz

PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7, 2026
Autoren: Ilya Borovik
cs.AI

Zusammenfassung

Symbolische Musikdatensätze mit übereinstimmenden Partituren und Aufführungen sind für viele Aufgaben der Musikinformationsgewinnung (MIR) unerlässlich. Bisherige Ressourcen decken jedoch oft nur einen engen Komponistenkreis ab, weisen eine geringe Aufführungsvielfalt auf, verzichten auf Noten-für-Noten-Zuordnungen oder verwenden inkonsistente Namensformate. Diese Arbeit stellt PianoCoRe vor, einen groß angelegten Klavier-MIDI-Datensatz, der wichtige Open-Source-Klavierkorpora vereinheitlicht und verfeinert. Der Datensatz umfasst 250.046 Aufführungen von 5.625 Stücken, komponiert von 483 Komponisten, mit insgesamt 21.763 Stunden aufgeführter Musik. PianoCoRe wird in abgestuften Teilmengen veröffentlicht, um verschiedene Anwendungen zu unterstützen: von groß angelegten Analysen und Vorverarbeitung (PianoCoRe-C und dedupliziertes PianoCoRe-B) bis hin zur Modellierung expressiver Aufführungen mit Noten-für-Noten-Partituralignment (PianoCoRe-A/A*). Die notenbezogene Teilmenge PianoCoRe-A bietet mit 157.207 Aufführungen, die 1.591 Partituren zugeordnet sind, die bislang größte Open-Source-Sammlung dieser Art. Neben dem Datensatz bestehen die Beiträge aus: (1) einem MIDI-Qualitätsklassifikator zur Erkennung fehlerhafter und partiturähnlicher Transkriptionen und (2) RAScoP, einer Pipeline zur Verfeinerung von Alignments, die zeitliche Zuordnungsfehler bereinigt und fehlende Noten interpoliert. Die Analyse zeigt, dass die Verfeinerung zeitliches Rauschen reduziert und Tempo-Ausreißer eliminiert. Darüber hinaus weist ein auf PianoCoRe trainierter Modell zur Erzeugung expressiver Aufführungen eine verbesserte Robustheit gegenüber unbekannten Stücken auf, verglichen mit Modellen, die auf Rohdaten oder kleineren Datensätzen trainiert wurden. PianoCoRe bietet eine sofort einsetzbare Grundlage für die nächste Generation der Forschung zu expressiver Klavieraufführung.
English
Symbolic music datasets with matched scores and performances are essential for many music information retrieval (MIR) tasks. Yet, existing resources often cover a narrow range of composers, lack performance variety, omit note-level alignments, or use inconsistent naming formats. This work presents PianoCoRe, a large-scale piano MIDI dataset that unifies and refines major open-source piano corpora. The dataset contains 250,046 performances of 5,625 pieces written by 483 composers, totaling 21,763 h of performed music. PianoCoRe is released in tiered subsets to support different applications: from large-scale analysis and pre-training (PianoCoRe-C and deduplicated PianoCoRe-B) to expressive performance modeling with note-level score alignment (PianoCoRe-A/A*). The note-aligned subset, PianoCoRe-A, provides the largest open-source collection of 157,207 performances aligned to 1,591 scores to date. In addition to the dataset, the contributions are: (1) a MIDI quality classifier for detecting corrupted and score-like transcriptions and (2) RAScoP, an alignment refinement pipeline that cleans temporal alignment errors and interpolates missing notes. The analysis shows that the refinement reduces temporal noise and eliminates tempo outliers. Moreover, an expressive performance rendering model trained on PianoCoRe demonstrates improved robustness to unseen pieces compared to models trained on raw or smaller datasets. PianoCoRe provides a ready-to-use foundation for the next generation of expressive piano performance research.
PDF11May 9, 2026