CMI-RewardBench : Évaluation des modèles de récompense musicale par instruction multimodale compositionnelle

Résumé

Alors que les modèles de génération musicale ont évolué pour traiter des entrées multimodales complexes mélangeant texte, paroles et audio de référence, les mécanismes d'évaluation sont restés à la traîne. Dans cet article, nous comblons cette lacune critique en établissant un écosystème complet pour la modélisation des récompenses musicales dans le cadre d'Instructions Multimodales Compositionnelles (IMC), où la musique générée peut être conditionnée par des descriptions textuelles, des paroles et des invites audio. Nous introduisons d'abord CMI-Pref-Pseudo, un jeu de données de préférences à grande échelle comprenant 110 000 échantillons étiquetés de manière pseudo-automatique, et CMI-Pref, un corpus de haute qualité annoté manuellement et conçu pour des tâches d'alignement granulaire. Pour unifier le paysage de l'évaluation, nous proposons CMI-RewardBench, un benchmark unifié qui évalue les modèles de récompense musicale sur des échantillons hétérogènes selon les critères de musicalité, d'alignement texte-musique et d'alignement aux instructions compositionnelles. En tirant parti de ces ressources, nous développons les modèles de récompense IMC (CMI-RM), une famille de modèles de récompense efficace en paramètres capable de traiter des entrées hétérogènes. Nous évaluons leur corrélation avec les scores de jugements humains sur la musicalité et l'alignement sur CMI-Pref ainsi que sur des jeux de données antérieurs. Des expériences supplémentaires démontrent que CMI-RM non seulement présente une forte corrélation avec les jugements humains, mais permet également une mise à l'échelle efficace lors de l'inférence via un filtrage top-k. Les données d'entraînement, les benchmarks et les modèles de récompense nécessaires sont mis à disposition publiquement.

English

While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.

CMI-RewardBench : Évaluation des modèles de récompense musicale par instruction multimodale compositionnelle

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Résumé

Support