MusicRL: Allineamento della Generazione Musicale alle Preferenze Umane

Abstract

Proponiamo MusicRL, il primo sistema di generazione musicale ottimizzato tramite feedback umano. L'apprezzamento dei modelli di testo-a-musica è particolarmente soggettivo, poiché il concetto di musicalità così come l'intenzione specifica dietro una descrizione dipendono dall'utente (ad esempio, una descrizione come "musica energica per allenamento" può corrispondere a un assolo di chitarra retrò o a un ritmo techno pop). Ciò non solo rende complesso l'addestramento supervisionato di tali modelli, ma richiede anche l'integrazione di un feedback umano continuo nella loro ottimizzazione post-distribuzione. MusicRL è un modello autoregressivo preaddestrato MusicLM (Agostinelli et al., 2023) basato su token audio discreti, ottimizzato con apprendimento per rinforzo per massimizzare ricompense a livello di sequenza. Progettiamo funzioni di ricompensa specifiche per l'aderenza al testo e la qualità audio con l'aiuto di valutatori selezionati, e le utilizziamo per ottimizzare MusicLM in MusicRL-R. Distribuiamo MusicLM agli utenti e raccogliamo un ampio dataset comprendente 300.000 preferenze a coppie. Utilizzando l'Apprendimento per Rinforzo da Feedback Umano (RLHF), addestriamo MusicRL-U, il primo modello testo-a-musica che incorpora feedback umano su larga scala. Le valutazioni umane mostrano che sia MusicRL-R che MusicRL-U sono preferiti rispetto al modello di riferimento. Infine, MusicRL-RU combina i due approcci e risulta essere il modello migliore secondo i valutatori umani. Studi di ablazione gettano luce sugli attributi musicali che influenzano le preferenze umane, indicando che l'aderenza al testo e la qualità ne rappresentano solo una parte. Ciò sottolinea la prevalenza della soggettività nell'apprezzamento musicale e invita a un maggiore coinvolgimento degli ascoltatori umani nell'ottimizzazione dei modelli di generazione musicale.

English

We propose MusicRL, the first music generation system finetuned from human feedback. Appreciation of text-to-music models is particularly subjective since the concept of musicality as well as the specific intention behind a caption are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a retro guitar solo or a techno pop beat). Not only this makes supervised training of such models challenging, but it also calls for integrating continuous human feedback in their post-deployment finetuning. MusicRL is a pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete audio tokens finetuned with reinforcement learning to maximise sequence-level rewards. We design reward functions related specifically to text-adherence and audio quality with the help from selected raters, and use those to finetune MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model that incorporates human feedback at scale. Human evaluations show that both MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU combines the two approaches and results in the best model according to human raters. Ablation studies shed light on the musical attributes influencing human preferences, indicating that text adherence and quality only account for a part of it. This underscores the prevalence of subjectivity in musical appreciation and calls for further involvement of human listeners in the finetuning of music generation models.

MusicRL: Allineamento della Generazione Musicale alle Preferenze Umane

MusicRL: Aligning Music Generation to Human Preferences

Abstract

Support