ChatPaper.aiChatPaper

MusicRL: Afstemming van Muziekgeneratie op Menselijke Voorkeuren

MusicRL: Aligning Music Generation to Human Preferences

February 6, 2024
Auteurs: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej Kastelic, Zalán Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem, Olivier Pietquin, Matthieu Geist, Léonard Hussenot, Neil Zeghidour, Andrea Agostinelli
cs.AI

Samenvatting

We stellen MusicRL voor, het eerste muziekgeneratiesysteem dat is afgestemd op basis van menselijke feedback. De waardering van tekst-naar-muziekmodellen is bijzonder subjectief, aangezien het concept van muzikaliteit evenals de specifieke intentie achter een beschrijving gebruikersafhankelijk zijn (bijvoorbeeld een beschrijving zoals "opzwepende workoutmuziek" kan verwijzen naar een retro gitaarsolo of een techno popbeat). Dit maakt niet alleen het begeleid trainen van dergelijke modellen uitdagend, maar benadrukt ook de noodzaak om continue menselijke feedback te integreren in hun afstemming na implementatie. MusicRL is een vooraf getraind autoregressief MusicLM-model (Agostinelli et al., 2023) van discrete audiokens, afgestemd met reinforcement learning om sequentieniveau beloningen te maximaliseren. We ontwerpen beloningsfuncties die specifiek gericht zijn op tekstgetrouwheid en audiokwaliteit met behulp van geselecteerde beoordelaars, en gebruiken deze om MusicLM af te stemmen tot MusicRL-R. We implementeren MusicLM bij gebruikers en verzamelen een omvangrijke dataset bestaande uit 300.000 paarsgewijze voorkeuren. Met Reinforcement Learning from Human Feedback (RLHF) trainen we MusicRL-U, het eerste tekst-naar-muziekmodel dat menselijke feedback op grote schaal integreert. Menselijke evaluaties tonen aan dat zowel MusicRL-R als MusicRL-U de voorkeur genieten boven de baseline. Uiteindelijk combineert MusicRL-RU de twee benaderingen en resulteert in het beste model volgens menselijke beoordelaars. Ablatiestudies werpen licht op de muzikale attributen die menselijke voorkeuren beïnvloeden, wat aangeeft dat tekstgetrouwheid en kwaliteit slechts een deel ervan verklaren. Dit onderstreept de overheersende subjectiviteit in muzikale waardering en benadrukt de noodzaak voor verdere betrokkenheid van menselijke luisteraars bij het afstemmen van muziekgeneratiemodellen.
English
We propose MusicRL, the first music generation system finetuned from human feedback. Appreciation of text-to-music models is particularly subjective since the concept of musicality as well as the specific intention behind a caption are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a retro guitar solo or a techno pop beat). Not only this makes supervised training of such models challenging, but it also calls for integrating continuous human feedback in their post-deployment finetuning. MusicRL is a pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete audio tokens finetuned with reinforcement learning to maximise sequence-level rewards. We design reward functions related specifically to text-adherence and audio quality with the help from selected raters, and use those to finetune MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model that incorporates human feedback at scale. Human evaluations show that both MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU combines the two approaches and results in the best model according to human raters. Ablation studies shed light on the musical attributes influencing human preferences, indicating that text adherence and quality only account for a part of it. This underscores the prevalence of subjectivity in musical appreciation and calls for further involvement of human listeners in the finetuning of music generation models.
PDF171February 8, 2026