Mejora de la generación de música a partir de texto mediante recompensas de preferencia humana

Resumen

Describimos nuestra participación en la pista de eficiencia del Gran Desafío de Texto a Música Académico (ATTM) en ICME 2026. Más allá de la puntuación FAD-CLAP y CLAP del protocolo del desafío, añadimos una recompensa aprendida de preferencia humana de TuneJury, un ranker por pares gemelo entrenado sobre conjuntos de datos abiertos de preferencias musicales. La recompensa sirve tanto como señal de condicionamiento en tiempo de entrenamiento como criterio de selección de muestras. El pipeline combina cinco decisiones de ingeniería sobre un backbone FluxAudio-S de 120 millones de parámetros, cuatro en tiempo de entrenamiento y una en inferencia: (i) condicionamiento de recompensa en tiempo de entrenamiento que funciona también como eje CFG en inferencia, (ii) un barrido sobre cinco arquitecturas de condicionamiento de puntuación, donde el entrenamiento y la inferencia utilizan variantes diferentes, (iii) iteración experta en el decil superior, (iv) un breve pase de ajuste de preferencias (CRPO) para alineación audio-texto, y (v) posprocesamiento de inferencia mediante CFG conjunto, separación de fuentes y normalización de volumen. La descomposición por etapas en 100 indicaciones de Song Describer muestra que el condicionamiento de recompensa en tiempo de entrenamiento es un eje de condicionamiento funcional, la iteración experta es el contribuyente dominante, el pase de ajuste de preferencias añade solo una ganancia a nivel de ruido, y que el escalar de puntuación en inferencia ya está saturado al final de la cadena.

English

We describe our entry to the efficiency track of the Academic Text-to-Music (ATTM) Grand Challenge at ICME 2026. Beyond the challenge protocol's FAD-CLAP and CLAP score, we add a learned human-preference reward from TuneJury, a twin pairwise ranker trained over open music-preference datasets. The reward serves both as a training-time conditioning signal and as a sample-selection criterion. The pipeline combines five engineering decisions on a 120M-parameter FluxAudio-S backbone, four at training time and one at inference: (i) training-time reward conditioning that doubles as an inference-time CFG axis, (ii) a sweep over five score-conditioning architectures, where training and inference use different variants, (iii) expert iteration on the top decile, (iv) a short preference-tuning pass (CRPO) for audio-text alignment, and (v) inference post-processing via joint CFG, source separation, and loudness normalization. Per-stage decomposition on 100 Song Describer prompts shows training-time reward conditioning as a functional conditioning axis, expert iteration as the dominant contributor, the preference-tuning pass adding only noise-level gain, and the inference-time score scalar already saturated by the end of the chain.