CMI-RewardBench: Bewertung von Musik-Belohnungsmodellen mit kompositioneller multimodaler Instruktion

Zusammenfassung

Während Musikgenerierungsmodelle sich weiterentwickelt haben, um komplexe multimodale Eingaben zu verarbeiten, die Text, Songtexte und Referenzaudio mischen, sind die Evaluierungsmechanismen zurückgeblieben. In dieser Arbeit schließen wir diese kritische Lücke, indem wir ein umfassendes Ökosystem für Music Reward Modeling unter Compositional Multimodal Instruction (CMI) etablieren, bei dem die generierte Musik auf Textbeschreibungen, Songtexte und Audio-Prompts konditioniert sein kann. Wir führen zunächst CMI-Pref-Pseudo ein, einen groß angelegten Präferenzdatensatz mit 110.000 pseudo-gelabelten Stichproben, und CMI-Pref, ein hochwertiges, menschlich annotiertes Korpus, das für feinkörnige Alignment-Aufgaben maßgeschneidert ist. Um die Evaluierungslandschaft zu vereinheitlichen, schlagen wir CMI-RewardBench vor, einen einheitlichen Benchmark, der Music-Reward-Modelle an heterogenen Stichproben in Bezug auf Musicalität, Text-Musik-Alignment und Alignment an kompositionelle Instruktionen bewertet. Gestützt auf diese Ressourcen entwickeln wir CMI-Reward-Modelle (CMI-RMs), eine parameter-effiziente Familie von Reward-Modellen, die in der Lage ist, heterogene Eingaben zu verarbeiten. Wir evaluieren ihre Korrelation mit menschlichen Bewertungen für Musicalität und Alignment auf CMI-Pref sowie auf früheren Datensätzen. Weitere Experimente zeigen, dass CMI-RM nicht nur stark mit menschlichen Urteilen korreliert, sondern auch eine effektive Inferenzzeit-Skalierung via Top-k-Filterung ermöglicht. Die notwendigen Trainingsdaten, Benchmarks und Reward-Modelle sind öffentlich verfügbar.

English

While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.

CMI-RewardBench: Bewertung von Musik-Belohnungsmodellen mit kompositioneller multimodaler Instruktion

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Zusammenfassung

Support