ChatPaper.aiChatPaper

MusicRL: Alinhando a Geração de Música às Preferências Humanas

MusicRL: Aligning Music Generation to Human Preferences

February 6, 2024
Autores: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej Kastelic, Zalán Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem, Olivier Pietquin, Matthieu Geist, Léonard Hussenot, Neil Zeghidour, Andrea Agostinelli
cs.AI

Resumo

Propomos o MusicRL, o primeiro sistema de geração musical ajustado com base em feedback humano. A apreciação de modelos de texto-para-música é particularmente subjetiva, já que o conceito de musicalidade, assim como a intenção específica por trás de uma legenda, dependem do usuário (por exemplo, uma legenda como "música animada para malhar" pode corresponder a um solo de guitarra retrô ou a uma batida de techno pop). Isso não apenas torna o treinamento supervisionado desses modelos desafiador, mas também exige a integração de feedback humano contínuo em seu ajuste pós-implantação. O MusicRL é um modelo autoregressivo pré-treinado do MusicLM (Agostinelli et al., 2023) de tokens de áudio discretos, ajustado com aprendizado por reforço para maximizar recompensas em nível de sequência. Projetamos funções de recompensa relacionadas especificamente à aderência ao texto e à qualidade do áudio com a ajuda de avaliadores selecionados, e as usamos para ajustar o MusicLM no MusicRL-R. Implantamos o MusicLM para usuários e coletamos um conjunto substancial de dados composto por 300.000 preferências pareadas. Usando Aprendizado por Reforço com Feedback Humano (RLHF), treinamos o MusicRL-U, o primeiro modelo de texto-para-música que incorpora feedback humano em escala. Avaliações humanas mostram que tanto o MusicRL-R quanto o MusicRL-U são preferidos em relação à linha de base. Por fim, o MusicRL-RU combina as duas abordagens e resulta no melhor modelo de acordo com os avaliadores humanos. Estudos de ablação esclarecem os atributos musicais que influenciam as preferências humanas, indicando que a aderência ao texto e a qualidade representam apenas uma parte delas. Isso ressalta a prevalência da subjetividade na apreciação musical e exige um maior envolvimento de ouvintes humanos no ajuste de modelos de geração musical.
English
We propose MusicRL, the first music generation system finetuned from human feedback. Appreciation of text-to-music models is particularly subjective since the concept of musicality as well as the specific intention behind a caption are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a retro guitar solo or a techno pop beat). Not only this makes supervised training of such models challenging, but it also calls for integrating continuous human feedback in their post-deployment finetuning. MusicRL is a pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete audio tokens finetuned with reinforcement learning to maximise sequence-level rewards. We design reward functions related specifically to text-adherence and audio quality with the help from selected raters, and use those to finetune MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model that incorporates human feedback at scale. Human evaluations show that both MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU combines the two approaches and results in the best model according to human raters. Ablation studies shed light on the musical attributes influencing human preferences, indicating that text adherence and quality only account for a part of it. This underscores the prevalence of subjectivity in musical appreciation and calls for further involvement of human listeners in the finetuning of music generation models.
PDF171February 8, 2026