ChatPaper.aiChatPaper

BACHI: Riconoscimento Simbolico di Accordi con Consapevolezza dei Confini Attraverso Decodifica Iterativa Mascherata su Musica Pop e Classica

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music

October 8, 2025
Autori: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI

Abstract

Il riconoscimento automatico degli accordi (ACR) attraverso modelli di deep learning ha gradualmente raggiunto una precisione promettente, ma rimangono due sfide principali. In primo luogo, i lavori precedenti si sono concentrati principalmente sull'ACR nel dominio audio, mentre l'ACR per la musica simbolica (ad esempio, spartiti) ha ricevuto un'attenzione limitata a causa della scarsità di dati. In secondo luogo, i metodi esistenti trascurano ancora strategie allineate con le pratiche analitiche musicali umane. Per affrontare queste sfide, presentiamo due contributi: (1) introduciamo POP909-CL, una versione migliorata del dataset POP909 con contenuti allineati al tempo ed etichette corrette manualmente per accordi, battiti, tonalità e tempi; e (2) proponiamo BACHI, un modello di riconoscimento degli accordi simbolici che scompone il compito in diversi passaggi decisionali, ovvero la rilevazione dei confini e il ranking iterativo della radice dell'accordo, della qualità e del basso (inversione). Questo meccanismo riflette le pratiche di ear-training umane. Gli esperimenti dimostrano che BACHI raggiunge prestazioni all'avanguardia nel riconoscimento degli accordi sia su benchmark di musica classica che pop, con studi di ablazione che convalidano l'efficacia di ciascun modulo.
English
Automatic chord recognition (ACR) via deep learning models has gradually achieved promising recognition accuracy, yet two key challenges remain. First, prior work has primarily focused on audio-domain ACR, while symbolic music (e.g., score) ACR has received limited attention due to data scarcity. Second, existing methods still overlook strategies that are aligned with human music analytical practices. To address these challenges, we make two contributions: (1) we introduce POP909-CL, an enhanced version of POP909 dataset with tempo-aligned content and human-corrected labels of chords, beats, keys, and time signatures; and (2) We propose BACHI, a symbolic chord recognition model that decomposes the task into different decision steps, namely boundary detection and iterative ranking of chord root, quality, and bass (inversion). This mechanism mirrors the human ear-training practices. Experiments demonstrate that BACHI achieves state-of-the-art chord recognition performance on both classical and pop music benchmarks, with ablation studies validating the effectiveness of each module.
PDF12October 9, 2025