Wie weit kann die Anpassung von Akkordsymbol-Zeitreihen die Genreidentität tragen? Fähigkeiten und Grenzen der Multi-Genre-Akkordsymbol-Modellierung
How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling
June 5, 2026
Autoren: Jinju Lee
cs.AI
Zusammenfassung
Harmony ist eine kompakte symbolische Schicht, in der mathematische Tonhöhenbeziehungen, akustische Konsonanz und musikalische Konventionen zusammentreffen. Dieser Bericht behandelt Akkord-Symbol-Sequenzen nicht als vollständige Repräsentation von Musik, sondern als interpretierbare, steuerbare Zeitreihe für genre-lokale harmonische Modellierung. Ausgehend von einem eingefrorenen Pop-Jazz Music Transformer Checkpoint evaluiere ich, wie weit kleine Anpassungsschnittstellen das Modell auf elf Zielgenres erweitern können: Blues, Bossa Nova, Bach-Choräle, Country, Elektronik, Folk, Funk, Gospel, Hip-Hop, R&B/Soul und Rock. Die Hauptbewertung vergleicht LoRA, IA3, BitFit, Prefix-Tuning und vollständiges Fine-Tuning über 11 Genres und 3 Seeds, ein vollständiges 165-Zellen-Raster. Alle fünf Methoden verbessern sich gegenüber der eingefrorenen Basis bei der Vorhersage zurückgehaltener Akkorde, mit makroskopischen Zuwächsen von +2,89 bis +3,61 Punkten; LoRA und IA3 erzielen die höchsten Werte, aber Wilcoxon-Tests mit Holm- und Benjamini-Hochberg-Korrektur belegen keinen eindeutigen Gewinner. Eine Kontrolle mit angepasster Datenmenge schärft dieses Bild: Wenn Genres auf eine gemeinsame Korpusgröße heruntergestuft werden, bleibt IA3 an der Spitze, aber der Vorteil von LoRA bei vollständigen Daten verschwindet und es fällt auf den letzten Platz, was darauf hindeutet, dass die kleinen Unterschiede teilweise datengetrieben sind. Eine Kontroll-Token-Baseline ist ebenfalls stark, und Adapter für falsche Genres übertreffen oft die eingefrorene Basis, was darauf hindeutet, dass ein Großteil des Effekts auf leichtgewichtige Konditionierung über einer wiederverwendbaren harmonischen Basis beruht und nicht auf einer bestimmten Adapterfamilie. Zusätzliche Diagnostiken (Rangdurchläufe, Rotation falscher Genres, eine Basis-Checkpoint-Ablation, Genrekklassifikation nur mit Akkorden, erzeugte Ausgabestatistiken, Bewertung mit echten Liedern und Duplikatanalyse) stützen eine eingeschränkte Schlussfolgerung: Akkord-Symbol-Adaption verbessert zuverlässig die genre-lokale harmonische Vorhersage, aber Akkordsymbole allein tragen keine vollständige Genre-Identität. Der Bericht vermeidet daher Aussagen über wahrgenommene Genre-Authentizität oder vollständige musikalische Qualität, die kontrollierte Hörer- oder Musikerbewertungen erfordern.
English
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical convention meet. This report treats chord-symbol sequences not as a complete representation of music, but as an interpretable, controllable time series for genre-local harmonic modeling. Starting from a frozen pop-jazz Music Transformer checkpoint, I evaluate how far small adaptation interfaces can extend the model to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction, with macro gains from +2.89 to +3.61 points; LoRA and IA3 score highest, but Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: when genres are sub-sampled to a common corpus size, IA3 stays on top but LoRA's full-data edge disappears and it falls to last, indicating the small gaps are partly data-driven. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting much of the effect comes from lightweight conditioning over a reusable harmonic base rather than one particular adapter family. Additional diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation, chord-only genre classification, generated-output statistics, real-song evaluation, and duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. The report therefore avoids claims about perceived genre authenticity or full musical quality, which require controlled listener or musician evaluation.