Verbesserung der Text-zu-Musik-Generierung mit menschlichen Präferenzbelohnungen

Zusammenfassung

Wir beschreiben unseren Beitrag zum Effizienz-Track der Academic Text-to-Music (ATTM) Grand Challenge auf der ICME 2026. Über das im Challenge-Protokoll definierte FAD-CLAP- und CLAP-Score-Maß hinaus fügen wir eine gelernte, auf menschlichen Präferenzen basierende Belohnung von TuneJury hinzu – einem twin-pairweiser Ranker, trainiert auf offenen Musikpräferenz-Datensätzen. Die Belohnung dient sowohl als Konditionierungssignal während des Trainings als auch als Selektionskriterium für Stichproben. Die Pipeline vereint fünf ingenieurtechnische Entscheidungen auf einem 120M-Parameter-FluxAudio-S-Backbone – vier zur Trainingszeit und eine zur Inferenzzeit: (i) Belohnungskonditionierung während des Trainings, die gleichzeitig als CFG-Achse während der Inferenz fungiert, (ii) eine Durchsuchung von fünf Score-Konditionierungsarchitekturen, bei der Training und Inferenz unterschiedliche Varianten nutzen, (iii) Experteniteration über das obere Dezil, (iv) einen kurzen Präferenz-Feintuning-Durchlauf (CRPO) zur Audio-Text-Ausrichtung und (v) Inferenz-Nachbearbeitung mittels gemeinsamer CFG, Quellentrennung und Lautheitsnormalisierung. Eine stufenweise Zerlegung anhand von 100 Song Describer Prompts zeigt, dass die Belohnungskonditionierung zur Trainingszeit als funktionale Konditionierungsachse wirkt, die Experteniteration den dominanten Beitrag leistet, der Präferenz-Feintuning-Durchlauf lediglich einen Gewinn auf Rauschniveau erzielt und der Score-Skalar zum Zeitpunkt der Inferenz bereits am Ende der Kette gesättigt ist.

English

We describe our entry to the efficiency track of the Academic Text-to-Music (ATTM) Grand Challenge at ICME 2026. Beyond the challenge protocol's FAD-CLAP and CLAP score, we add a learned human-preference reward from TuneJury, a twin pairwise ranker trained over open music-preference datasets. The reward serves both as a training-time conditioning signal and as a sample-selection criterion. The pipeline combines five engineering decisions on a 120M-parameter FluxAudio-S backbone, four at training time and one at inference: (i) training-time reward conditioning that doubles as an inference-time CFG axis, (ii) a sweep over five score-conditioning architectures, where training and inference use different variants, (iii) expert iteration on the top decile, (iv) a short preference-tuning pass (CRPO) for audio-text alignment, and (v) inference post-processing via joint CFG, source separation, and loudness normalization. Per-stage decomposition on 100 Song Describer prompts shows training-time reward conditioning as a functional conditioning axis, expert iteration as the dominant contributor, the preference-tuning pass adding only noise-level gain, and the inference-time score scalar already saturated by the end of the chain.