BACHI : Reconnaissance symbolique de grilles d'accords basée sur les limites par décodage itératif masqué sur la musique pop et classique
BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
October 8, 2025
papers.authors: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI
papers.abstract
La reconnaissance automatique d'accords (ACR) via des modèles d'apprentissage profond a progressivement atteint une précision prometteuse, mais deux défis majeurs subsistent. Premièrement, les travaux antérieurs se sont principalement concentrés sur l'ACR dans le domaine audio, tandis que l'ACR pour la musique symbolique (par exemple, les partitions) a reçu une attention limitée en raison de la rareté des données. Deuxièmement, les méthodes existantes négligent encore des stratégies alignées sur les pratiques analytiques humaines en musique. Pour relever ces défis, nous apportons deux contributions : (1) nous introduisons POP909-CL, une version améliorée du jeu de données POP909 avec un contenu aligné sur le tempo et des étiquettes corrigées manuellement pour les accords, les temps, les tonalités et les signatures temporelles ; et (2) nous proposons BACHI, un modèle de reconnaissance d'accords symbolique qui décompose la tâche en différentes étapes de décision, à savoir la détection des limites et le classement itératif de la racine de l'accord, de la qualité et de la basse (inversion). Ce mécanisme reflète les pratiques humaines d'entraînement auditif. Les expériences démontrent que BACHI atteint des performances de pointe en reconnaissance d'accords sur des références de musique classique et pop, avec des études d'ablation validant l'efficacité de chaque module.
English
Automatic chord recognition (ACR) via deep learning models has gradually
achieved promising recognition accuracy, yet two key challenges remain. First,
prior work has primarily focused on audio-domain ACR, while symbolic music
(e.g., score) ACR has received limited attention due to data scarcity. Second,
existing methods still overlook strategies that are aligned with human music
analytical practices. To address these challenges, we make two contributions:
(1) we introduce POP909-CL, an enhanced version of POP909 dataset with
tempo-aligned content and human-corrected labels of chords, beats, keys, and
time signatures; and (2) We propose BACHI, a symbolic chord recognition model
that decomposes the task into different decision steps, namely boundary
detection and iterative ranking of chord root, quality, and bass (inversion).
This mechanism mirrors the human ear-training practices. Experiments
demonstrate that BACHI achieves state-of-the-art chord recognition performance
on both classical and pop music benchmarks, with ablation studies validating
the effectiveness of each module.