ChatPaper.aiChatPaper

Jusqu'où l'adaptation des séries temporelles de symboles d'accords peut-elle véhiculer l'identité de genre ? Capacités et limites dans la modélisation multi-genre des symboles d'accords.

How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

June 5, 2026
Auteurs: Jinju Lee
cs.AI

Résumé

L'harmonie est une couche symbolique compacte où se rencontrent les relations mathématiques de hauteur, la consonance acoustique et la convention musicale. Ce rapport considère les séquences de symboles d'accords non pas comme une représentation complète de la musique, mais comme une série temporelle interprétable et contrôlable pour la modélisation harmonique locale au genre. À partir d'un point de contrôle gelé d'un Music Transformer pop-jazz, j'évalue dans quelle mesure de petites interfaces d'adaptation peuvent étendre le modèle à onze genres cibles : blues, bossa nova, chorals de Bach, country, électronique, folk, funk, gospel, hip-hop, R&B/soul et rock. L'évaluation principale compare LoRA, IA3, BitFit, le réglage par préfixe et le fine-tuning complet sur 11 genres et 3 graines aléatoires, soit une grille complète de 165 cellules. Les cinq méthodes améliorent toutes la base gelée sur la prédiction d'accords hors échantillon, avec des gains macro allant de +2,89 à +3,61 points ; LoRA et IA3 obtiennent les meilleurs scores, mais les tests de Wilcoxon avec correction de Holm et Benjamini-Hochberg ne permettent pas de désigner un vainqueur décisif. Un contrôle par taille de données appariée affine cette observation : lorsque les genres sont sous-échantillonnés à une taille de corpus commune, IA3 reste en tête mais l'avantage de LoRA sur les données complètes disparaît et il tombe en dernière position, ce qui indique que les petits écarts sont en partie liés aux données. Une ligne de base par jeton de contrôle est également performante, et des adaptateurs de genre erroné surpassent souvent la base gelée, ce qui suggère qu'une grande partie de l'effet provient d'un conditionnement léger sur une base harmonique réutilisable plutôt que d'une famille d'adaptateurs particulière. Des diagnostics supplémentaires (balayages de rang, rotation de genre erroné, ablation du point de contrôle de base, classification de genre uniquement par accords, statistiques de sortie générée, évaluation sur des chansons réelles et analyse des doublons) soutiennent une conclusion limitée : l'adaptation par symboles d'accords améliore de manière fiable la prédiction harmonique locale au genre, mais les symboles d'accords seuls ne portent pas une identité de genre complète. Ce rapport évite donc les affirmations sur l'authenticité perçue du genre ou la qualité musicale globale, qui nécessitent une évaluation contrôlée par des auditeurs ou des musiciens.
English
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical convention meet. This report treats chord-symbol sequences not as a complete representation of music, but as an interpretable, controllable time series for genre-local harmonic modeling. Starting from a frozen pop-jazz Music Transformer checkpoint, I evaluate how far small adaptation interfaces can extend the model to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction, with macro gains from +2.89 to +3.61 points; LoRA and IA3 score highest, but Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: when genres are sub-sampled to a common corpus size, IA3 stays on top but LoRA's full-data edge disappears and it falls to last, indicating the small gaps are partly data-driven. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting much of the effect comes from lightweight conditioning over a reusable harmonic base rather than one particular adapter family. Additional diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation, chord-only genre classification, generated-output statistics, real-song evaluation, and duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. The report therefore avoids claims about perceived genre authenticity or full musical quality, which require controlled listener or musician evaluation.