ChatPaper.aiChatPaper

BACHI: Reconhecimento Simbólico de Acordes com Consciência de Limites Através de Decodificação Iterativa Mascarada em Música Pop e Clássica

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music

October 8, 2025
Autores: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
cs.AI

Resumo

O reconhecimento automático de acordes (ACR) por meio de modelos de aprendizado profundo tem gradualmente alcançado uma precisão promissora, mas dois desafios principais permanecem. Primeiro, trabalhos anteriores focaram principalmente no ACR no domínio do áudio, enquanto o ACR em música simbólica (por exemplo, partitura) recebeu atenção limitada devido à escassez de dados. Segundo, os métodos existentes ainda negligenciam estratégias alinhadas com as práticas analíticas musicais humanas. Para abordar esses desafios, fazemos duas contribuições: (1) introduzimos o POP909-CL, uma versão aprimorada do conjunto de dados POP909 com conteúdo alinhado ao tempo e rótulos corrigidos manualmente de acordes, batidas, tonalidades e compassos; e (2) propomos o BACHI, um modelo de reconhecimento de acordes simbólicos que decompõe a tarefa em diferentes etapas de decisão, nomeadamente detecção de fronteiras e classificação iterativa da raiz do acorde, qualidade e baixo (inversão). Esse mecanismo espelha as práticas de treinamento auditivo humano. Experimentos demonstram que o BACHI alcança desempenho de ponta em reconhecimento de acordes tanto em benchmarks de música clássica quanto pop, com estudos de ablação validando a eficácia de cada módulo.
English
Automatic chord recognition (ACR) via deep learning models has gradually achieved promising recognition accuracy, yet two key challenges remain. First, prior work has primarily focused on audio-domain ACR, while symbolic music (e.g., score) ACR has received limited attention due to data scarcity. Second, existing methods still overlook strategies that are aligned with human music analytical practices. To address these challenges, we make two contributions: (1) we introduce POP909-CL, an enhanced version of POP909 dataset with tempo-aligned content and human-corrected labels of chords, beats, keys, and time signatures; and (2) We propose BACHI, a symbolic chord recognition model that decomposes the task into different decision steps, namely boundary detection and iterative ranking of chord root, quality, and bass (inversion). This mechanism mirrors the human ear-training practices. Experiments demonstrate that BACHI achieves state-of-the-art chord recognition performance on both classical and pop music benchmarks, with ablation studies validating the effectiveness of each module.
PDF12October 9, 2025