TuneJury: Eine offene Metrik zur Verbesserung der Präferenzanpassung bei der Musikgenerierung

Zusammenfassung

Wir stellen TuneJury vor, ein offenes, instanzbasiertes paarweises Belohnungsmodell für Text-zu-Musik, das aus einer Textaufforderung und einem Audioclip eine Musikpräferenzbewertung vorhersagt. Der veröffentlichte Modellcheckpoint wird auf öffentlich verfügbaren menschlichen Präferenzlabels trainiert, die Arena-Stil-Abstimmungen (A vs. B), metrische Ausrichtung von Präferenzpaaren, per Crowdsourcing erstellte paarweise Vergleiche und ästhetische Bewertungen von Experten umfassen. Der vorhergesagte Bewertungsabstand zwischen zwei Clips ist auf unserem zurückgehaltenen Testsplit gut kalibriert, was eine Datenfilterung mittels eines einfachen Bewertungsschwellenwerts ermöglicht. TuneJury verallgemeinert sich sowohl auf zurückgehaltene Testpaare als auch auf Out-of-Distribution-Benchmarks und bleibt bei letzteren wettbewerbsfähig mit früheren Basislinien. Für Generatoren, die nach dem Training veröffentlicht werden, führen wir die Ankerkalibrierung ein, eine nachträgliche, pro-systemspezifische Bradley-Terry-Kalibrierung, die die Übereinstimmung mit erheblich besserer Dateneffizienz wiederherstellt als ein erneutes Training von Grund auf. Dieselbe eingefrorene Belohnung führt zu konsistenten Verbesserungen entlang der Belohnungsachse bei drei nachgelagerten Anwendungen: Best-of-N-Auswahl zur Inferenzzeit, latente Optimierung im DITTO-Stil und Post-Training mit Experteniteration. TuneJury ist verfügbar unter https://github.com/yonghyunk1m/TuneJury.

English

We introduce TuneJury, an open, instance-level pairwise reward model for text-to-music that predicts a music preference score from a text prompt and an audio clip. The released checkpoint is trained on publicly available human-preference labels covering arena-style (A vs. B) votes, metric-alignment preference pairs, crowdsourced pairwise comparisons, and expert aesthetic ratings. The predicted score margin between two clips is well calibrated on our held-out test split, supporting data filtering via a simple score threshold. TuneJury generalizes to both held-out test pairs and out-of-distribution benchmarks, remaining competitive with prior baselines on the latter. For generators released after training, we introduce anchor calibration, a post-hoc, per-system Bradley-Terry calibration that recovers agreement at substantially better data efficiency than from-scratch retraining. The same frozen reward drives consistent reward-axis gains across three downstream applications: inference-time best-of-N selection, DITTO-style latent optimization, and expert-iteration post-training. TuneJury is available at https://github.com/yonghyunk1m/TuneJury.