TuneJury: Открытая метрика для улучшения согласования предпочтений при генерации музыки

Аннотация

Мы представляем TuneJury — открытую попарную модель вознаграждения на уровне отдельных примеров для задачи «текст-в-музыку», которая предсказывает предпочтительный музыкальный балл на основе текстового запроса и аудиофрагмента. Выпущенная контрольная точка обучена на общедоступных метках человеческих предпочтений, включающих голосования в формате «арена» (A против B), предпочтительные пары на основе метрического согласования, краудсорсинговые попарные сравнения и экспертные эстетические оценки. Предсказанный разброс баллов между двумя фрагментами хорошо откалиброван на нашем отложенном тестовом наборе, что поддерживает фильтрацию данных с помощью простого порога по баллам. TuneJury обобщается как на отложенные тестовые пары, так и на эталоны вне распределения, оставаясь конкурентоспособным по сравнению с предыдущими базовыми моделями на последних. Для генераторов, выпущенных после обучения, мы вводим якорную калибровку — пост-хок, поканальную калибровку по Брэдли-Терри, которая восстанавливает согласованность при существенно лучшей эффективности данных по сравнению с переобучением с нуля. Та же фиксированная награда обеспечивает устойчивый прирост по оси вознаграждения в трёх downstream-приложениях: выбор Best-of-N во время вывода, латентная оптимизация в стиле DITTO и пост-обучение с экспертной итерацией. TuneJury доступен по адресу https://github.com/yonghyunk1m/TuneJury.

English

We introduce TuneJury, an open, instance-level pairwise reward model for text-to-music that predicts a music preference score from a text prompt and an audio clip. The released checkpoint is trained on publicly available human-preference labels covering arena-style (A vs. B) votes, metric-alignment preference pairs, crowdsourced pairwise comparisons, and expert aesthetic ratings. The predicted score margin between two clips is well calibrated on our held-out test split, supporting data filtering via a simple score threshold. TuneJury generalizes to both held-out test pairs and out-of-distribution benchmarks, remaining competitive with prior baselines on the latter. For generators released after training, we introduce anchor calibration, a post-hoc, per-system Bradley-Terry calibration that recovers agreement at substantially better data efficiency than from-scratch retraining. The same frozen reward drives consistent reward-axis gains across three downstream applications: inference-time best-of-N selection, DITTO-style latent optimization, and expert-iteration post-training. TuneJury is available at https://github.com/yonghyunk1m/TuneJury.