¿Hasta dónde puede la adaptación de series temporales de cifrado de acordes transmitir la identidad de género? Capacidades y límites en el modelado de cifrado de acordes multigénero
How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling
June 5, 2026
Autores: Jinju Lee
cs.AI
Resumen
La armonía es una capa simbólica compacta donde convergen las relaciones matemáticas de alturas, la consonancia acústica y la convención musical. Este informe trata las secuencias de símbolos de acordes no como una representación completa de la música, sino como una serie temporal interpretable y controlable para el modelado armónico local de género. Partiendo de un punto de control congelado de un Music Transformer de pop-jazz, evalúo hasta qué punto pequeñas interfaces de adaptación pueden extender el modelo a once géneros objetivo: blues, bossa nova, corales de Bach, country, electrónica, folk, funk, gospel, hip-hop, R&B/soul y rock. La evaluación principal compara LoRA, IA3, BitFit, ajuste de prefijo y ajuste fino completo en 11 géneros y 3 semillas, una cuadrícula completa de 165 celdas. Los cinco métodos mejoran con respecto a la base congelada en la predicción de acordes no vistos, con ganancias macro de +2.89 a +3.61 puntos; LoRA e IA3 obtienen las puntuaciones más altas, pero las pruebas de Wilcoxon con corrección de Holm y Benjamini-Hochberg no respaldan un ganador decisivo. Un control de tamaño de datos emparejado agudiza esto: cuando los géneros se submuestran a un tamaño de corpus común, IA3 se mantiene en la cima, pero la ventaja de datos completos de LoRA desaparece y cae al último lugar, lo que indica que las pequeñas diferencias son en parte impulsadas por los datos. Una línea base de token de control también es sólida, y los adaptadores de género incorrecto a menudo superan a la base congelada, lo que sugiere que gran parte del efecto proviene de un condicionamiento ligero sobre una base armónica reutilizable más que de una familia de adaptadores en particular. Diagnósticos adicionales (barridos de rango, rotación de género incorrecto, ablación del punto de control base, clasificación de género solo con acordes, estadísticas de salida generada, evaluación con canciones reales y análisis de duplicados) respaldan una conclusión acotada: la adaptación de símbolos de acordes mejora de manera confiable la predicción armónica local de género, pero los símbolos de acordes por sí solos no contienen la identidad completa del género. Por lo tanto, el informe evita afirmaciones sobre la autenticidad de género percibida o la calidad musical completa, que requieren una evaluación controlada con oyentes o músicos.
English
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical convention meet. This report treats chord-symbol sequences not as a complete representation of music, but as an interpretable, controllable time series for genre-local harmonic modeling. Starting from a frozen pop-jazz Music Transformer checkpoint, I evaluate how far small adaptation interfaces can extend the model to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction, with macro gains from +2.89 to +3.61 points; LoRA and IA3 score highest, but Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: when genres are sub-sampled to a common corpus size, IA3 stays on top but LoRA's full-data edge disappears and it falls to last, indicating the small gaps are partly data-driven. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting much of the effect comes from lightweight conditioning over a reusable harmonic base rather than one particular adapter family. Additional diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation, chord-only genre classification, generated-output statistics, real-song evaluation, and duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. The report therefore avoids claims about perceived genre authenticity or full musical quality, which require controlled listener or musician evaluation.