Amélioration de la génération texte-musique par des récompenses de préférence humaine

Résumé

Nous décrivons notre participation au volet efficacité du Grand Défi Texte-vers-Musique Académique (ATTM) à l'ICME 2026. Au-delà des scores FAD-CLAP et CLAP du protocole du défi, nous ajoutons une récompense apprise de préférence humaine issue de TuneJury, un classifieur par paires jumelles entraîné sur des ensembles de données ouvertes de préférences musicales. Cette récompense sert à la fois de signal de conditionnement lors de l'entraînement et de critère de sélection d'échantillons. Le pipeline combine cinq décisions d'ingénierie sur un modèle de base FluxAudio-S de 120M de paramètres, quatre lors de l'entraînement et une lors de l'inférence : (i) un conditionnement par récompense lors de l'entraînement, qui fait également office d'axe CFG lors de l'inférence, (ii) un balayage sur cinq architectures de conditionnement par score, où l'entraînement et l'inférence utilisent des variantes différentes, (iii) une itération experte sur le décile supérieur, (iv) un court passage de réglage par préférence (CRPO) pour l'alignement audio-texte, et (v) un post-traitement d'inférence via CFG conjoint, séparation de sources et normalisation de l'intensité sonore. Une décomposition par étape sur 100 prompts de Song Describer montre que le conditionnement par récompense lors de l'entraînement constitue un axe de conditionnement fonctionnel, que l'itération experte est le contributeur dominant, que le passage de réglage par préférence n'apporte qu'un gain de niveau de bruit, et que le scalaire de score d'inférence est déjà saturé à la fin de la chaîne.

English

We describe our entry to the efficiency track of the Academic Text-to-Music (ATTM) Grand Challenge at ICME 2026. Beyond the challenge protocol's FAD-CLAP and CLAP score, we add a learned human-preference reward from TuneJury, a twin pairwise ranker trained over open music-preference datasets. The reward serves both as a training-time conditioning signal and as a sample-selection criterion. The pipeline combines five engineering decisions on a 120M-parameter FluxAudio-S backbone, four at training time and one at inference: (i) training-time reward conditioning that doubles as an inference-time CFG axis, (ii) a sweep over five score-conditioning architectures, where training and inference use different variants, (iii) expert iteration on the top decile, (iv) a short preference-tuning pass (CRPO) for audio-text alignment, and (v) inference post-processing via joint CFG, source separation, and loudness normalization. Per-stage decomposition on 100 Song Describer prompts shows training-time reward conditioning as a functional conditioning axis, expert iteration as the dominant contributor, the preference-tuning pass adding only noise-level gain, and the inference-time score scalar already saturated by the end of the chain.