Улучшение генерации музыки по тексту с помощью вознаграждений на основе человеческих предпочтений

Аннотация

Мы описываем наше участие в треке эффективности (efficiency track) академического гранд-челленджа «Text-to-Music» (ATTM) на конференции ICME 2026. Помимо предусмотренных протоколом соревнования метрик FAD‑CLAP и CLAP score, мы добавляем обученную награду за предпочтения человека от системы TuneJury — двойного попарного ранжировщика, обученного на открытых наборах данных о музыкальных предпочтениях. Эта награда служит как сигналом обусловливания на этапе обучения, так и критерием отбора сэмплов. Пайплайн объединяет пять инженерных решений на основе базовой модели FluxAudio‑S с 120 миллионами параметров, четыре из которых применяются на этапе обучения и одно — на этапе инференса: (i) обусловливание наградой во время обучения, которое также выступает в качестве оси CFG на этапе инференса; (ii) перебор пяти архитектур обусловливания оценками, где при обучении и инференсе используются разные варианты; (iii) экспертная итерация на верхнем дециле; (iv) короткий проход тонкой настройки на предпочтениях (CRPO) для выравнивания аудио и текста; (v) постобработка на этапе инференса с помощью совместного CFG, разделения источников и нормализации громкости. Покомпонентный анализ на 100 промптах из датасета Song Describer показывает, что обусловливание наградой во время обучения является функциональной осью обусловливания, экспертная итерация — основным источником улучшений, проход тонкой настройки на предпочтениях добавляет лишь шумоподобный прирост, а скаляр оценок на этапе инференса уже насыщен к концу цепочки.

English

We describe our entry to the efficiency track of the Academic Text-to-Music (ATTM) Grand Challenge at ICME 2026. Beyond the challenge protocol's FAD-CLAP and CLAP score, we add a learned human-preference reward from TuneJury, a twin pairwise ranker trained over open music-preference datasets. The reward serves both as a training-time conditioning signal and as a sample-selection criterion. The pipeline combines five engineering decisions on a 120M-parameter FluxAudio-S backbone, four at training time and one at inference: (i) training-time reward conditioning that doubles as an inference-time CFG axis, (ii) a sweep over five score-conditioning architectures, where training and inference use different variants, (iii) expert iteration on the top decile, (iv) a short preference-tuning pass (CRPO) for audio-text alignment, and (v) inference post-processing via joint CFG, source separation, and loudness normalization. Per-stage decomposition on 100 Song Describer prompts shows training-time reward conditioning as a functional conditioning axis, expert iteration as the dominant contributor, the preference-tuning pass adding only noise-level gain, and the inference-time score scalar already saturated by the end of the chain.