CMI-RewardBench: Avaliação de Modelos de Recompensa Musical com Instrução Multimodal Composicional

Resumo

Embora os modelos de geração musical tenham evoluído para lidar com entradas multimodais complexas que misturam texto, letras e áudio de referência, os mecanismos de avaliação ficaram para trás. Neste artigo, preenchemos essa lacuna crítica estabelecendo um ecossistema abrangente para modelagem de recompensa musical sob Instrução Multimodal Composicional (CMI), onde a música gerada pode ser condicionada a descrições textuais, letras e prompts de áudio. Primeiro, apresentamos o CMI-Pref-Pseudo, um conjunto de dados de preferência em larga escala composto por 110 mil amostras pseudo-rotuladas, e o CMI-Pref, um corpus de alta qualidade anotado manualmente e adaptado para tarefas de alinhamento de granularidade fina. Para unificar o cenário de avaliação, propomos o CMI-RewardBench, um benchmark unificado que avalia modelos de recompensa musical em amostras heterogêneas em termos de musicalidade, alinhamento texto-música e alinhamento a instruções composicionais. Aproveitando esses recursos, desenvolvemos os modelos de recompensa CMI (CMI-RMs), uma família de modelos de recompensa com eficiência de parâmetros capaz de processar entradas heterogêneas. Avaliamos sua correlação com as pontuações de julgamento humano sobre musicalidade e alinhamento no CMI-Pref, juntamente com conjuntos de dados anteriores. Experimentos adicionais demonstram que o CMI-RM não apenas se correlaciona fortemente com os julgamentos humanos, mas também permite um escalonamento eficaz no tempo de inferência por meio de filtragem top-k. Os dados de treinamento, benchmarks e modelos de recompensa necessários estão publicamente disponíveis.

English

While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.

CMI-RewardBench: Avaliação de Modelos de Recompensa Musical com Instrução Multimodal Composicional

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Resumo

Support