ChatPaper.aiChatPaper

Насколько далеко может зайти адаптация временных рядов аккордовых символов в передаче жанровой идентичности? Возможности и границы многожанрового моделирования аккордовых символов.

How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

June 5, 2026
Авторы: Jinju Lee
cs.AI

Аннотация

Гармония — это компактный символический уровень, где пересекаются математические высотные соотношения, акустический консонанс и музыкальные условности. В настоящем отчёте последовательности аккордовых символов рассматриваются не как полное представление музыки, а как интерпретируемый и управляемый временной ряд для жанрово-локального гармонического моделирования. Отталкиваясь от замороженной контрольной точки музыкального трансформера поп-джаза, я оцениваю, насколько далеко небольшие интерфейсы адаптации могут расширить модель на одиннадцать целевых жанров: блюз, босса-нова, хоралы Баха, кантри, электроника, фолк, фанк, госпел, хип-хоп, R&B/соул и рок. Основное сравнение включает LoRA, IA3, BitFit, префиксную настройку и полную донастройку по 11 жанрам и 3 начальным состояниям, образуя полную сетку из 165 ячеек. Все пять методов улучшают замороженную базу по показателям прогнозирования аккордов на отложенных данных, с макроприростом от +2,89 до +3,61 балла; LoRA и IA3 показывают наивысшие результаты, но тесты Уилкоксона с поправками Холма и Бенджамини-Хохберга не подтверждают явного победителя. Контроль с выравниванием объёма данных уточняет этот результат: при субдискретизации жанров до общего корпусного размера IA3 сохраняет лидерство, но преимущество LoRA при полном объёме данных исчезает, и она опускается на последнее место, что указывает на частичную зависимость малых разрывов от данных. Базовый контроль с токеном-заполнителем также показывает высокие результаты, а адаптеры с неверным жанром часто превосходят замороженную базу, предполагая, что большая часть эффекта обусловлена легковесным обусловливанием на основе многократно используемой гармонической базы, а не конкретным семейством адаптеров. Дополнительные диагностические проверки (обход рангов, ротация неверных жанров, абляция базовой контрольной точки, классификация жанров только по аккордам, статистика сгенерированного вывода, оценка на реальных песнях и анализ дубликатов) подтверждают ограниченный вывод: адаптация аккордовых символов надёжно улучшает жанрово-локальное гармоническое прогнозирование, но одни лишь аккордовые символы не несут полной жанровой идентичности. Таким образом, отчёт избегает утверждений о воспринимаемой жанровой аутентичности или полном музыкальном качестве, для оценки которых требуются контролируемые эксперименты со слушателями или музыкантами.
English
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical convention meet. This report treats chord-symbol sequences not as a complete representation of music, but as an interpretable, controllable time series for genre-local harmonic modeling. Starting from a frozen pop-jazz Music Transformer checkpoint, I evaluate how far small adaptation interfaces can extend the model to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction, with macro gains from +2.89 to +3.61 points; LoRA and IA3 score highest, but Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: when genres are sub-sampled to a common corpus size, IA3 stays on top but LoRA's full-data edge disappears and it falls to last, indicating the small gaps are partly data-driven. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting much of the effect comes from lightweight conditioning over a reusable harmonic base rather than one particular adapter family. Additional diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation, chord-only genre classification, generated-output statistics, real-song evaluation, and duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. The report therefore avoids claims about perceived genre authenticity or full musical quality, which require controlled listener or musician evaluation.