ChatPaper.aiChatPaper

BACHI: Grenzbewusste symbolische Akkorderkennung durch maskiertes iteratives Decodieren in Pop- und klassischer Musik

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music

October 8, 2025
papers.authors: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI

papers.abstract

Die automatische Akkorderkennung (ACR) mittels Deep-Learning-Modellen hat allmählich vielversprechende Erkennungsgenauigkeiten erreicht, doch bleiben zwei zentrale Herausforderungen bestehen. Erstens konzentrierte sich die bisherige Forschung hauptsächlich auf ACR im Audiobereich, während die symbolische Musik (z. B. Partituren) aufgrund von Datenknappheit nur begrenzt Beachtung fand. Zweitens übersehen bestehende Methoden noch immer Strategien, die mit den analytischen Praktiken menschlicher Musikanalyse übereinstimmen. Um diese Herausforderungen zu bewältigen, leisten wir zwei Beiträge: (1) Wir stellen POP909-CL vor, eine erweiterte Version des POP909-Datensatzes mit tempoausgerichteten Inhalten und manuell korrigierten Labels für Akkorde, Beats, Tonarten und Taktarten; und (2) Wir präsentieren BACHI, ein Modell zur symbolischen Akkorderkennung, das die Aufgabe in verschiedene Entscheidungsschritte zerlegt, nämlich die Grenzerkennung und das iterative Ranking von Akkordgrundton, Akkordqualität und Bass (Inversion). Dieser Mechanismus spiegelt die menschlichen Gehörbildungspraktiken wider. Experimente zeigen, dass BACHI eine state-of-the-art Akkorderkennungsleistung sowohl bei klassischer als auch bei Popmusik erreicht, wobei Ablationsstudien die Wirksamkeit jedes Moduls bestätigen.
English
Automatic chord recognition (ACR) via deep learning models has gradually achieved promising recognition accuracy, yet two key challenges remain. First, prior work has primarily focused on audio-domain ACR, while symbolic music (e.g., score) ACR has received limited attention due to data scarcity. Second, existing methods still overlook strategies that are aligned with human music analytical practices. To address these challenges, we make two contributions: (1) we introduce POP909-CL, an enhanced version of POP909 dataset with tempo-aligned content and human-corrected labels of chords, beats, keys, and time signatures; and (2) We propose BACHI, a symbolic chord recognition model that decomposes the task into different decision steps, namely boundary detection and iterative ranking of chord root, quality, and bass (inversion). This mechanism mirrors the human ear-training practices. Experiments demonstrate that BACHI achieves state-of-the-art chord recognition performance on both classical and pop music benchmarks, with ablation studies validating the effectiveness of each module.
PDF12October 9, 2025