Hoe ver kan aanpassing van akkoordsymbool-tijdreeksen de genre-identiteit overdragen? Mogelijkheden en grenzen in multi-genre akkoordsymboolmodellering
How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling
June 5, 2026
Auteurs: Jinju Lee
cs.AI
Samenvatting
Harmonie is een compacte symbolische laag waar wiskundige toonhoogterelaties, akoestische consonantie en muzikale conventie samenkomen. Dit rapport behandelt akkoordsymboolreeksen niet als een volledige representatie van muziek, maar als een interpreteerbare, beheersbare tijdreeks voor genre-lokale harmonische modellering. Vertrekkend van een bevroren pop-jazz Music Transformer-checkpoint evalueer ik hoe ver kleine adaptatie-interfaces het model kunnen uitbreiden naar elf doelgenres: blues, bossa nova, Bachkoralen, country, electronic, folk, funk, gospel, hiphop, R&B/soul en rock. De belangrijkste evaluatie vergelijkt LoRA, IA3, BitFit, prefix-tuning en volledige finetuning over 11 genres en 3 seeds, een compleet raster van 165 cellen. Alle vijf methoden verbeteren ten opzichte van de bevroren basis wat betreft voorspelling van niet-geziene akkoorden, met macrowinsten van +2,89 tot +3,61 punten; LoRA en IA3 scoren het hoogst, maar Wilcoxon-toetsen met Holm- en Benjamini-Hochberg-correctie ondersteunen geen doorslaggevende winnaar. Een controle met overeenkomende datagrootte scherpt dit aan: wanneer genres worden onderbemonsterd tot een gemeenschappelijke corpusgrootte, blijft IA3 bovenaan, maar verdwijnt LoRA's voorsprong op volledige data en zakt het naar de laatste plaats, wat suggereert dat de kleine verschillen deels door data worden gedreven. Een controletoken-baseline is ook sterk, en adapters van het verkeerde genre verslaan vaak de bevroren basis, wat erop wijst dat een groot deel van het effect afkomstig is van lichtgewicht conditionering over een herbruikbare harmonische basis, in plaats van een specifieke adapterfamilie. Aanvullende diagnostiek (rangordeverkenningen, verkeerde-genre-rotatie, een basis-checkpoint-ablatie, akkoord-only genreclassificatie, statistieken van gegenereerde uitvoer, evaluatie op echte nummers en duplicatenanalyse) ondersteunen een genuanceerde conclusie: akkoordsymbooladaptatie verbetert betrouwbaar genre-lokale harmonische voorspelling, maar akkoordsymbolen alleen dragen geen volledige genre-identiteit. Het rapport vermijdt daarom uitspraken over waargenomen genreauthenticiteit of volledige muzikale kwaliteit, die gecontroleerde evaluatie door luisteraars of muzikanten vereisen.
English
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical convention meet. This report treats chord-symbol sequences not as a complete representation of music, but as an interpretable, controllable time series for genre-local harmonic modeling. Starting from a frozen pop-jazz Music Transformer checkpoint, I evaluate how far small adaptation interfaces can extend the model to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction, with macro gains from +2.89 to +3.61 points; LoRA and IA3 score highest, but Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: when genres are sub-sampled to a common corpus size, IA3 stays on top but LoRA's full-data edge disappears and it falls to last, indicating the small gaps are partly data-driven. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting much of the effect comes from lightweight conditioning over a reusable harmonic base rather than one particular adapter family. Additional diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation, chord-only genre classification, generated-output statistics, real-song evaluation, and duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. The report therefore avoids claims about perceived genre authenticity or full musical quality, which require controlled listener or musician evaluation.