ChatPaper.aiChatPaper

Até que ponto a adaptação de séries temporais de símbolos de acordes pode manter a identidade de gênero? Capacidades e Limites na Modelagem de Símbolos de Acordes Multigênero

How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

June 5, 2026
Autores: Jinju Lee
cs.AI

Resumo

A harmonia é uma camada simbólica compacta onde as relações matemáticas de altura, a consonância acústica e a convenção musical se encontram. Este relatório trata as sequências de símbolos de acordes não como uma representação completa da música, mas como uma série temporal interpretável e controlável para modelagem harmônica local de gênero. Partindo de um checkpoint congelado do Music Transformer treinado em pop-jazz, avalio até que ponto pequenas interfaces de adaptação podem estender o modelo para onze gêneros-alvo: blues, bossa nova, corais de Bach, country, eletrônico, folk, funk, gospel, hip-hop, R&B/soul e rock. A avaliação principal compara LoRA, IA3, BitFit, ajuste via prefixo e ajuste fino completo em 11 gêneros e 3 sementes, uma grade completa de 165 células. Todos os cinco métodos melhoram em relação à base congelada na predição de acordes retidos, com ganhos macro de +2,89 a +3,61 pontos; LoRA e IA3 obtêm as maiores pontuações, mas testes de Wilcoxon com correção de Holm e Benjamini-Hochberg não apoiam um vencedor decisivo. Um controle de tamanho de dados combinado esclarece isso: quando os gêneros são sub-amostrados para um tamanho de corpus comum, o IA3 permanece no topo, mas a vantagem do LoRA com dados completos desaparece e ele cai para último, indicando que os pequenos gaps são parcialmente impulsionados pelos dados. Uma linha de base de token de controle também é forte, e adaptadores de gênero incorreto frequentemente superam a base congelada, sugerindo que grande parte do efeito vem de um condicionamento leve sobre uma base harmônica reutilizável, em vez de uma família específica de adaptadores. Diagnósticos adicionais (varreduras de posto, rotação de gênero incorreto, uma ablação do checkpoint base, classificação de gênero apenas por acordes, estatísticas de saída gerada, avaliação em músicas reais e análise de duplicatas) apoiam uma conclusão delimitada: a adaptação de símbolos de acordes melhora de forma confiável a predição harmônica local de gênero, mas os símbolos de acordes isoladamente não carregam identidade completa de gênero. O relatório, portanto, evita afirmações sobre autenticidade percebida de gênero ou qualidade musical completa, que exigem avaliação controlada por ouvintes ou músicos.
English
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical convention meet. This report treats chord-symbol sequences not as a complete representation of music, but as an interpretable, controllable time series for genre-local harmonic modeling. Starting from a frozen pop-jazz Music Transformer checkpoint, I evaluate how far small adaptation interfaces can extend the model to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction, with macro gains from +2.89 to +3.61 points; LoRA and IA3 score highest, but Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: when genres are sub-sampled to a common corpus size, IA3 stays on top but LoRA's full-data edge disappears and it falls to last, indicating the small gaps are partly data-driven. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting much of the effect comes from lightweight conditioning over a reusable harmonic base rather than one particular adapter family. Additional diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation, chord-only genre classification, generated-output statistics, real-song evaluation, and duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. The report therefore avoids claims about perceived genre authenticity or full musical quality, which require controlled listener or musician evaluation.