BACHI: Распознавание символических аккордов с учетом границ с использованием маскированного итеративного декодирования в поп- и классической музыке
BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
October 8, 2025
Авторы: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI
Аннотация
Автоматическое распознавание аккордов (ACR) с использованием моделей глубокого обучения постепенно достигает высокой точности распознавания, однако остаются две ключевые проблемы. Во-первых, предыдущие исследования в основном сосредоточены на ACR в аудиодомене, тогда как распознавание аккордов в символической музыке (например, в нотах) получает ограниченное внимание из-за недостатка данных. Во-вторых, существующие методы по-прежнему игнорируют стратегии, соответствующие практикам музыкального анализа, используемым человеком. Для решения этих проблем мы предлагаем два вклада: (1) мы представляем POP909-CL, улучшенную версию набора данных POP909 с синхронизированным по темпу содержанием и исправленными вручную метками аккордов, долей, тональностей и размеров тактов; и (2) мы предлагаем BACHI, модель распознавания аккордов в символической музыке, которая разбивает задачу на различные этапы принятия решений, а именно обнаружение границ и итеративное ранжирование корня аккорда, его качества и баса (инверсии). Этот механизм отражает практики тренировки слуха человека. Эксперименты показывают, что BACHI достигает наилучших результатов в распознавании аккордов как на классических, так и на поп-музыкальных тестах, а исследования с исключением компонентов подтверждают эффективность каждого модуля.
English
Automatic chord recognition (ACR) via deep learning models has gradually
achieved promising recognition accuracy, yet two key challenges remain. First,
prior work has primarily focused on audio-domain ACR, while symbolic music
(e.g., score) ACR has received limited attention due to data scarcity. Second,
existing methods still overlook strategies that are aligned with human music
analytical practices. To address these challenges, we make two contributions:
(1) we introduce POP909-CL, an enhanced version of POP909 dataset with
tempo-aligned content and human-corrected labels of chords, beats, keys, and
time signatures; and (2) We propose BACHI, a symbolic chord recognition model
that decomposes the task into different decision steps, namely boundary
detection and iterative ranking of chord root, quality, and bass (inversion).
This mechanism mirrors the human ear-training practices. Experiments
demonstrate that BACHI achieves state-of-the-art chord recognition performance
on both classical and pop music benchmarks, with ablation studies validating
the effectiveness of each module.