TuneJury: Una métrica abierta para mejorar la alineación de preferencias en la generación musical

Resumen

Presentamos TuneJury, un modelo de recompensa abierto, por pares a nivel de instancia para texto a música, que predice una puntuación de preferencia musical a partir de un prompt textual y un clip de audio. El checkpoint publicado se entrena con etiquetas de preferencia humana disponibles públicamente que abarcan votos estilo arena (A vs. B), pares de preferencia de alineación métrica, comparaciones por pares crowdsourced y calificaciones estéticas de expertos. El margen de puntuación predicho entre dos clips está bien calibrado en nuestra división de prueba reservada, lo que permite el filtrado de datos mediante un umbral de puntuación simple. TuneJury generaliza tanto a pares de prueba reservados como a benchmarks fuera de distribución, manteniéndose competitivo con líneas de base previas en estos últimos. Para generadores publicados después del entrenamiento, introducimos la calibración ancla, una calibración Bradley-Terry post-hoc por sistema que recupera la concordancia con una eficiencia de datos sustancialmente mejor que el reentrenamiento desde cero. La misma recompensa congelada impulsa ganancias consistentes en el eje de recompensa en tres aplicaciones posteriores: selección best-of-N en tiempo de inferencia, optimización latente estilo DITTO y entrenamiento posterior por iteración de expertos. TuneJury está disponible en https://github.com/yonghyunk1m/TuneJury.

English

We introduce TuneJury, an open, instance-level pairwise reward model for text-to-music that predicts a music preference score from a text prompt and an audio clip. The released checkpoint is trained on publicly available human-preference labels covering arena-style (A vs. B) votes, metric-alignment preference pairs, crowdsourced pairwise comparisons, and expert aesthetic ratings. The predicted score margin between two clips is well calibrated on our held-out test split, supporting data filtering via a simple score threshold. TuneJury generalizes to both held-out test pairs and out-of-distribution benchmarks, remaining competitive with prior baselines on the latter. For generators released after training, we introduce anchor calibration, a post-hoc, per-system Bradley-Terry calibration that recovers agreement at substantially better data efficiency than from-scratch retraining. The same frozen reward drives consistent reward-axis gains across three downstream applications: inference-time best-of-N selection, DITTO-style latent optimization, and expert-iteration post-training. TuneJury is available at https://github.com/yonghyunk1m/TuneJury.