TuneJury : Une métrique ouverte pour améliorer l'alignement des préférences dans la génération musicale

Résumé

Nous présentons TuneJury, un modèle de récompense par paire au niveau des instances, ouvert, pour la génération texte vers musique, qui prédit un score de préférence musicale à partir d’une prompte textuelle et d’un extrait audio. Le point de contrôle publié est entraîné sur des étiquettes de préférence humaine accessibles publiquement, couvrant des votes de type arène (A vs. B), des paires de préférence alignées sur des métriques, des comparaisons par paires issues du crowdsourcing, et des évaluations esthétiques d’experts. La marge de score prédite entre deux extraits est bien calibrée sur notre ensemble de test réservé, ce qui permet un filtrage des données via un simple seuil de score. TuneJury généralise à la fois sur les paires de test réservées et sur les références hors distribution, restant compétitif avec les bases de référence antérieures sur ces dernières. Pour les générateurs publiés après l’entraînement, nous introduisons la calibration d’ancrage, une calibration Bradley-Terry post-hoc par système qui retrouve l’accord avec une efficacité en termes de données nettement supérieure à celle d’un réentraînement à partir de zéro. La même récompense figée entraîne des gains constants sur l’axe de récompense dans trois applications en aval : la sélection best-of-N au moment de l’inférence, l’optimisation latente de type DITTO et le post-entraînement par itération experte. TuneJury est disponible à l’adresse https://github.com/yonghyunk1m/TuneJury.

English

We introduce TuneJury, an open, instance-level pairwise reward model for text-to-music that predicts a music preference score from a text prompt and an audio clip. The released checkpoint is trained on publicly available human-preference labels covering arena-style (A vs. B) votes, metric-alignment preference pairs, crowdsourced pairwise comparisons, and expert aesthetic ratings. The predicted score margin between two clips is well calibrated on our held-out test split, supporting data filtering via a simple score threshold. TuneJury generalizes to both held-out test pairs and out-of-distribution benchmarks, remaining competitive with prior baselines on the latter. For generators released after training, we introduce anchor calibration, a post-hoc, per-system Bradley-Terry calibration that recovers agreement at substantially better data efficiency than from-scratch retraining. The same frozen reward drives consistent reward-axis gains across three downstream applications: inference-time best-of-N selection, DITTO-style latent optimization, and expert-iteration post-training. TuneJury is available at https://github.com/yonghyunk1m/TuneJury.