PianoCoRe: Conjunto de Datos MIDI de Piano Combinado y Refinado
PianoCoRe: Combined and Refined Piano MIDI Dataset
May 7, 2026
Autores: Ilya Borovik
cs.AI
Resumen
Los conjuntos de datos de música simbólica con partituras y actuaciones emparejadas son esenciales para muchas tareas de recuperación de información musical (MIR). Sin embargo, los recursos existentes a menudo cubren un rango limitado de compositores, carecen de variedad interpretativa, omiten alineaciones a nivel de nota o utilizan formatos de nomenclatura inconsistentes. Este trabajo presenta PianoCoRe, un conjunto de datos de MIDI para piano a gran escala que unifica y refina los principales corpus de piano de código abierto. El conjunto de datos contiene 250.046 interpretaciones de 5.625 piezas escritas por 483 compositores, totalizando 21.763 horas de música interpretada. PianoCoRe se publica en subconjuntos escalonados para apoyar diferentes aplicaciones: desde análisis a gran escala y preentrenamiento (PianoCoRe-C y PianoCoRe-B sin duplicados) hasta el modelado de interpretación expresiva con alineación de partituras a nivel de nota (PianoCoRe-A/A*). El subconjunto con notas alineadas, PianoCoRe-A, proporciona la colección de código abierto más grande hasta la fecha, con 157.207 interpretaciones alineadas con 1.591 partituras. Además del conjunto de datos, las contribuciones son: (1) un clasificador de calidad de MIDI para detectar transcripciones corruptas y similares a partituras, y (2) RAScoP, una canalización de refinamiento de alineación que limpia errores de alineación temporal e interpola notas faltantes. El análisis muestra que el refinamiento reduce el ruido temporal y elimina valores atípicos de tempo. Además, un modelo de renderizado de interpretación expresiva entrenado en PianoCoRe demuestra una mayor robustez ante piezas no vistas en comparación con modelos entrenados en conjuntos de datos crudos o más pequeños. PianoCoRe proporciona una base lista para usar para la próxima generación de investigación en interpretación expresiva de piano.
English
Symbolic music datasets with matched scores and performances are essential for many music information retrieval (MIR) tasks. Yet, existing resources often cover a narrow range of composers, lack performance variety, omit note-level alignments, or use inconsistent naming formats. This work presents PianoCoRe, a large-scale piano MIDI dataset that unifies and refines major open-source piano corpora. The dataset contains 250,046 performances of 5,625 pieces written by 483 composers, totaling 21,763 h of performed music. PianoCoRe is released in tiered subsets to support different applications: from large-scale analysis and pre-training (PianoCoRe-C and deduplicated PianoCoRe-B) to expressive performance modeling with note-level score alignment (PianoCoRe-A/A*). The note-aligned subset, PianoCoRe-A, provides the largest open-source collection of 157,207 performances aligned to 1,591 scores to date. In addition to the dataset, the contributions are: (1) a MIDI quality classifier for detecting corrupted and score-like transcriptions and (2) RAScoP, an alignment refinement pipeline that cleans temporal alignment errors and interpolates missing notes. The analysis shows that the refinement reduces temporal noise and eliminates tempo outliers. Moreover, an expressive performance rendering model trained on PianoCoRe demonstrates improved robustness to unseen pieces compared to models trained on raw or smaller datasets. PianoCoRe provides a ready-to-use foundation for the next generation of expressive piano performance research.