BACHI: 팝과 클래식 음악에서 마스크된 반복 디코딩을 통한 경계 인식 기호적 코드 인식
BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
October 8, 2025
저자: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI
초록
딥러닝 모델을 통한 자동 코드 인식(Automatic Chord Recognition, ACR)은 점차적으로 유망한 인식 정확도를 달성해 왔지만, 여전히 두 가지 주요 과제가 남아 있습니다. 첫째, 기존 연구는 주로 오디오 도메인 ACR에 초점을 맞추어 왔으며, 악보와 같은 기호 음악(symbolic music)에 대한 ACR은 데이터 부족으로 인해 제한적인 관심만을 받아왔습니다. 둘째, 기존 방법들은 여전히 인간의 음악 분석 관행과 일치하는 전략을 간과하고 있습니다. 이러한 과제를 해결하기 위해 우리는 두 가지 기여를 합니다: (1) 템포가 정렬된 콘텐츠와 코드, 박자, 조성, 박자표에 대한 인간이 수정한 레이블을 포함한 개선된 버전의 POP909 데이터셋인 POP909-CL을 소개하며, (2) 코드 인식 작업을 경계 탐지 및 코드 루트, 품질, 베이스(인버전)의 반복적 순위 매기기와 같은 다양한 결정 단계로 분해하는 기호 코드 인식 모델인 BACHI를 제안합니다. 이 메커니즘은 인간의 청음 훈련 관행을 반영합니다. 실험 결과, BACHI는 클래식 및 팝 음악 벤치마크에서 최첨단 코드 인식 성능을 달성하며, 각 모듈의 효과를 검증하는 어블레이션 연구를 통해 그 유효성을 입증했습니다.
English
Automatic chord recognition (ACR) via deep learning models has gradually
achieved promising recognition accuracy, yet two key challenges remain. First,
prior work has primarily focused on audio-domain ACR, while symbolic music
(e.g., score) ACR has received limited attention due to data scarcity. Second,
existing methods still overlook strategies that are aligned with human music
analytical practices. To address these challenges, we make two contributions:
(1) we introduce POP909-CL, an enhanced version of POP909 dataset with
tempo-aligned content and human-corrected labels of chords, beats, keys, and
time signatures; and (2) We propose BACHI, a symbolic chord recognition model
that decomposes the task into different decision steps, namely boundary
detection and iterative ranking of chord root, quality, and bass (inversion).
This mechanism mirrors the human ear-training practices. Experiments
demonstrate that BACHI achieves state-of-the-art chord recognition performance
on both classical and pop music benchmarks, with ablation studies validating
the effectiveness of each module.