BACHI: Grensbewuste Symbolische Akkoordherkenning via Gemaskeerde Iteratieve Decodering op Pop- en Klassieke Muziek
BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
October 8, 2025
Auteurs: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI
Samenvatting
Automatische akkoordherkenning (ACR) via deep learning-modellen heeft geleidelijk aan veelbelovende herkenningsnauwkeurigheid bereikt, maar twee belangrijke uitdagingen blijven bestaan. Ten eerste heeft eerder werk zich voornamelijk gericht op ACR in het audiodomein, terwijl symbolische muziek (bijvoorbeeld partituren) ACR beperkte aandacht heeft gekregen vanwege een gebrek aan data. Ten tweede negeren bestaande methoden nog steeds strategieën die aansluiten bij menselijke muziekanalytische praktijken. Om deze uitdagingen aan te pakken, doen we twee bijdragen: (1) we introduceren POP909-CL, een verbeterde versie van de POP909-dataset met tempo-uitgelijnde inhoud en door mensen gecorrigeerde labels van akkoorden, beats, toonsoorten en maatsoorten; en (2) we stellen BACHI voor, een symbolisch akkoordherkenningsmodel dat de taak opsplitst in verschillende besluitvormingsstappen, namelijk grensdetectie en iteratieve rangschikking van akkoordwortel, kwaliteit en bas (inversie). Dit mechanisme weerspiegelt de praktijken van menselijke gehoortraining. Experimenten tonen aan dat BACHI state-of-the-art prestaties bereikt in akkoordherkenning op zowel klassieke als popmuziek benchmarks, waarbij ablatiestudies de effectiviteit van elke module valideren.
English
Automatic chord recognition (ACR) via deep learning models has gradually
achieved promising recognition accuracy, yet two key challenges remain. First,
prior work has primarily focused on audio-domain ACR, while symbolic music
(e.g., score) ACR has received limited attention due to data scarcity. Second,
existing methods still overlook strategies that are aligned with human music
analytical practices. To address these challenges, we make two contributions:
(1) we introduce POP909-CL, an enhanced version of POP909 dataset with
tempo-aligned content and human-corrected labels of chords, beats, keys, and
time signatures; and (2) We propose BACHI, a symbolic chord recognition model
that decomposes the task into different decision steps, namely boundary
detection and iterative ranking of chord root, quality, and bass (inversion).
This mechanism mirrors the human ear-training practices. Experiments
demonstrate that BACHI achieves state-of-the-art chord recognition performance
on both classical and pop music benchmarks, with ablation studies validating
the effectiveness of each module.