CMI-RewardBench: Evaluación de Modelos de Recompensa Musical con Instrucción Multimodal Composicional

Resumen

Si bien los modelos de generación musical han evolucionado para manejar entradas multimodales complejas que combinan texto, letras y audio de referencia, los mecanismos de evaluación se han quedado rezagados. En este artículo, cerramos esta brecha crítica estableciendo un ecosistema integral para el modelado de recompensas musicales bajo Instrucción Multimodal Composicional (CMI), donde la música generada puede estar condicionada por descripciones textuales, letras y prompts de audio. Primero presentamos CMI-Pref-Pseudo, un conjunto de datos de preferencias a gran escala que comprende 110k muestras con etiquetas pseudo, y CMI-Pref, un corpus anotado por humanos de alta calidad diseñado para tareas de alineación de grano fino. Para unificar el panorama evaluativo, proponemos CMI-RewardBench, un benchmark unificado que evalúa modelos de recompensa musical en muestras heterogéneas a través de musicalidad, alineación texto-música y alineación a instrucciones composicionales. Aprovechando estos recursos, desarrollamos modelos de recompensa CMI (CMI-RMs), una familia de modelos de recompensa eficiente en parámetros capaz de procesar entradas heterogéneas. Evaluamos su correlación con las puntuaciones de juicios humanos sobre musicalidad y alineación en CMI-Pref junto con conjuntos de datos anteriores. Experimentos adicionales demuestran que CMI-RM no solo se correlaciona fuertemente con los juicios humanos, sino que también permite un escalado efectivo en tiempo de inferencia mediante filtrado top-k. Los datos de entrenamiento, benchmarks y modelos de recompensa necesarios están disponibles públicamente.

English

While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.

CMI-RewardBench: Evaluación de Modelos de Recompensa Musical con Instrucción Multimodal Composicional

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Resumen

Support