BACHI: Reconocimiento Simbólico de Acordes con Conciencia de Límites mediante Decodificación Iterativa Enmascarada en Música Pop y Clásica
BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
October 8, 2025
Autores: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI
Resumen
El reconocimiento automático de acordes (ACR, por sus siglas en inglés) mediante modelos de aprendizaje profundo ha logrado gradualmente una precisión prometedora, aunque persisten dos desafíos clave. En primer lugar, trabajos previos se han centrado principalmente en ACR en el dominio del audio, mientras que el ACR en música simbólica (por ejemplo, partituras) ha recibido poca atención debido a la escasez de datos. En segundo lugar, los métodos existentes aún pasan por alto estrategias que están alineadas con las prácticas analíticas musicales humanas. Para abordar estos desafíos, realizamos dos contribuciones: (1) presentamos POP909-CL, una versión mejorada del conjunto de datos POP909 con contenido alineado en tempo y etiquetas corregidas manualmente de acordes, pulsos, tonalidades y compases; y (2) proponemos BACHI, un modelo de reconocimiento de acordes en música simbólica que descompone la tarea en diferentes pasos de decisión, concretamente la detección de límites y la clasificación iterativa de la raíz del acorde, su calidad y el bajo (inversión). Este mecanismo refleja las prácticas de entrenamiento auditivo humano. Los experimentos demuestran que BACHI alcanza un rendimiento de reconocimiento de acordes de vanguardia en referencias tanto de música clásica como pop, con estudios de ablación que validan la efectividad de cada módulo.
English
Automatic chord recognition (ACR) via deep learning models has gradually
achieved promising recognition accuracy, yet two key challenges remain. First,
prior work has primarily focused on audio-domain ACR, while symbolic music
(e.g., score) ACR has received limited attention due to data scarcity. Second,
existing methods still overlook strategies that are aligned with human music
analytical practices. To address these challenges, we make two contributions:
(1) we introduce POP909-CL, an enhanced version of POP909 dataset with
tempo-aligned content and human-corrected labels of chords, beats, keys, and
time signatures; and (2) We propose BACHI, a symbolic chord recognition model
that decomposes the task into different decision steps, namely boundary
detection and iterative ranking of chord root, quality, and bass (inversion).
This mechanism mirrors the human ear-training practices. Experiments
demonstrate that BACHI achieves state-of-the-art chord recognition performance
on both classical and pop music benchmarks, with ablation studies validating
the effectiveness of each module.