ChatPaper.aiChatPaper

PianoCoRe: Комбинированный и усовершенствованный фортепианный MIDI-датасет

PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7, 2026
Авторы: Ilya Borovik
cs.AI

Аннотация

Символические музыкальные датасеты с сопоставленными партитурами и исполнениями необходимы для многих задач музыкального информационного поиска (MIR). Однако существующие ресурсы часто охватывают узкий круг композиторов, не обладают разнообразием исполнений, не содержат выравнивания на уровне нот или используют нестандартные форматы именования. В данной работе представлен PianoCoRe — крупномасштабный фортепианный MIDI-датасет, объединяющий и улучшающий основные открытые фортепианные корпуса. Датасет содержит 250 046 исполнений 5 625 произведений, написанных 483 композиторами, что в сумме составляет 21 763 часа исполненной музыки. PianoCoRe выпускается в виде иерархических подмножеств для поддержки различных приложений: от крупномасштабного анализа и предварительного обучения (PianoCoRe-C и дедуплицированный PianoCoRe-B) до моделирования выразительного исполнения с выравниванием на уровне нот (PianoCoRe-A/A*). Подмножество с выравниванием нот, PianoCoRe-A, предоставляет крупнейшую на сегодняшний день открытую коллекцию из 157 207 исполнений, выровненных относительно 1 591 партитуры. Помимо датасета, вклад работы включает: (1) классификатор качества MIDI для обнаружения поврежденных и партитуроподобных транскрипций и (2) RAScoP — конвейер уточнения выравнивания, который очищает временные ошибки выравнивания и интерполирует пропущенные ноты. Анализ показывает, что улучшение снижает временной шум и устраняет выбросы темпа. Более того, модель генерации выразительного исполнения, обученная на PianoCoRe, демонстрирует повышенную устойчивость к незнакомым произведениям по сравнению с моделями, обученными на сырых или меньших датасетах. PianoCoRe предоставляет готовую основу для исследований выразительного фортепианного исполнения следующего поколения.
English
Symbolic music datasets with matched scores and performances are essential for many music information retrieval (MIR) tasks. Yet, existing resources often cover a narrow range of composers, lack performance variety, omit note-level alignments, or use inconsistent naming formats. This work presents PianoCoRe, a large-scale piano MIDI dataset that unifies and refines major open-source piano corpora. The dataset contains 250,046 performances of 5,625 pieces written by 483 composers, totaling 21,763 h of performed music. PianoCoRe is released in tiered subsets to support different applications: from large-scale analysis and pre-training (PianoCoRe-C and deduplicated PianoCoRe-B) to expressive performance modeling with note-level score alignment (PianoCoRe-A/A*). The note-aligned subset, PianoCoRe-A, provides the largest open-source collection of 157,207 performances aligned to 1,591 scores to date. In addition to the dataset, the contributions are: (1) a MIDI quality classifier for detecting corrupted and score-like transcriptions and (2) RAScoP, an alignment refinement pipeline that cleans temporal alignment errors and interpolates missing notes. The analysis shows that the refinement reduces temporal noise and eliminates tempo outliers. Moreover, an expressive performance rendering model trained on PianoCoRe demonstrates improved robustness to unseen pieces compared to models trained on raw or smaller datasets. PianoCoRe provides a ready-to-use foundation for the next generation of expressive piano performance research.
PDF11May 9, 2026