TuneJury: Uma Métrica Aberta para Melhorar o Alinhamento de Preferências na Geração de Música

Resumo

Apresentamos o TuneJury, um modelo de recompensa pareada aberto e ao nível de instância para texto-para-música, que prediz uma pontuação de preferência musical a partir de um prompt textual e de um clipe de áudio. O checkpoint disponibilizado é treinado com rótulos de preferência humana publicamente disponíveis, abrangendo votos no estilo arena (A vs. B), pares de preferência por alinhamento métrico, comparações pareadas obtidas por crowdsourcing e classificações estéticas de especialistas. A margem de pontuação prevista entre dois clipes é bem calibrada na nossa divisão de teste reservada, suportando a filtragem de dados por meio de um limiar de pontuação simples. O TuneJury generaliza tanto para pares de teste reservados quanto para benchmarks fora da distribuição, mantendo-se competitivo com linhas de base anteriores nestes últimos. Para geradores lançados após o treinamento, introduzimos a calibração de âncora, uma calibração Bradley-Terry pós-hoc por sistema que recupera a concordância com eficiência de dados substancialmente melhor do que o retreinamento do zero. A mesma recompensa congelada impulsiona ganhos consistentes no eixo de recompensa em três aplicações downstream: seleção best-of-N em tempo de inferência, otimização latente ao estilo DITTO e pós-treinamento por iteração de especialistas. O TuneJury está disponível em https://github.com/yonghyunk1m/TuneJury.

English

We introduce TuneJury, an open, instance-level pairwise reward model for text-to-music that predicts a music preference score from a text prompt and an audio clip. The released checkpoint is trained on publicly available human-preference labels covering arena-style (A vs. B) votes, metric-alignment preference pairs, crowdsourced pairwise comparisons, and expert aesthetic ratings. The predicted score margin between two clips is well calibrated on our held-out test split, supporting data filtering via a simple score threshold. TuneJury generalizes to both held-out test pairs and out-of-distribution benchmarks, remaining competitive with prior baselines on the latter. For generators released after training, we introduce anchor calibration, a post-hoc, per-system Bradley-Terry calibration that recovers agreement at substantially better data efficiency than from-scratch retraining. The same frozen reward drives consistent reward-axis gains across three downstream applications: inference-time best-of-N selection, DITTO-style latent optimization, and expert-iteration post-training. TuneJury is available at https://github.com/yonghyunk1m/TuneJury.