ChatPaper.aiChatPaper

BACHI: ポップおよびクラシック音楽におけるマスク付き反復デコーディングによる境界認識型シンボリックコード認識

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music

October 8, 2025
著者: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI

要旨

深層学習モデルによる自動コード認識(ACR)は、徐々に有望な認識精度を達成してきたが、依然として2つの主要な課題が残されている。第一に、従来の研究は主に音声ドメインのACRに焦点を当てており、記号音楽(例:楽譜)のACRはデータ不足のため限定的な注目しか集めていない。第二に、既存の手法は、人間の音楽分析実践に沿った戦略をまだ十分に考慮していない。これらの課題に対処するため、我々は2つの貢献を行う:(1)POP909-CLを導入する。これは、テンポに合わせた内容と、コード、ビート、キー、拍子の人間による修正ラベルを備えたPOP909データセットの拡張版である。(2)BACHIを提案する。これは、タスクを異なる決定ステップ、すなわち境界検出とコードルート、クオリティ、ベース(転回)の反復的ランキングに分解する記号コード認識モデルである。このメカニズムは、人間の耳トレーニング実践を反映している。実験により、BACHIはクラシック音楽とポップミュージックのベンチマークにおいて、最新のコード認識性能を達成し、各モジュールの有効性を検証するアブレーション研究が行われた。
English
Automatic chord recognition (ACR) via deep learning models has gradually achieved promising recognition accuracy, yet two key challenges remain. First, prior work has primarily focused on audio-domain ACR, while symbolic music (e.g., score) ACR has received limited attention due to data scarcity. Second, existing methods still overlook strategies that are aligned with human music analytical practices. To address these challenges, we make two contributions: (1) we introduce POP909-CL, an enhanced version of POP909 dataset with tempo-aligned content and human-corrected labels of chords, beats, keys, and time signatures; and (2) We propose BACHI, a symbolic chord recognition model that decomposes the task into different decision steps, namely boundary detection and iterative ranking of chord root, quality, and bass (inversion). This mechanism mirrors the human ear-training practices. Experiments demonstrate that BACHI achieves state-of-the-art chord recognition performance on both classical and pop music benchmarks, with ablation studies validating the effectiveness of each module.
PDF12October 9, 2025