MusicRL : Alignement de la génération musicale aux préférences humaines

papers.abstract

Nous proposons MusicRL, le premier système de génération musicale affiné à partir de retours humains. L'appréciation des modèles de texte-à-musique est particulièrement subjective, car la notion de musicalité ainsi que l'intention spécifique derrière une description dépendent de l'utilisateur (par exemple, une description telle que "musique entraînante pour le sport" peut correspondre à un solo de guitare rétro ou à un rythme techno pop). Non seulement cela rend l'entraînement supervisé de tels modèles complexe, mais cela nécessite également l'intégration de retours humains continus dans leur affinage post-déploiement. MusicRL est un modèle autoregressif pré-entraîné MusicLM (Agostinelli et al., 2023) de tokens audio discrets, affiné par apprentissage par renforcement pour maximiser les récompenses au niveau de la séquence. Nous concevons des fonctions de récompense spécifiquement liées à l'adhésion au texte et à la qualité audio avec l'aide de juges sélectionnés, et les utilisons pour affiner MusicLM en MusicRL-R. Nous déployons MusicLM auprès des utilisateurs et collectons un ensemble de données substantiel comprenant 300 000 préférences par paires. En utilisant l'apprentissage par renforcement à partir de retours humains (RLHF), nous entraînons MusicRL-U, le premier modèle texte-à-musique intégrant des retours humains à grande échelle. Les évaluations humaines montrent que MusicRL-R et MusicRL-U sont préférés au modèle de référence. Enfin, MusicRL-RU combine les deux approches et aboutit au meilleur modèle selon les juges humains. Des études d'ablation mettent en lumière les attributs musicaux influençant les préférences humaines, indiquant que l'adhésion au texte et la qualité n'en représentent qu'une partie. Cela souligne la prévalence de la subjectivité dans l'appréciation musicale et appelle à une implication accrue des auditeurs humains dans l'affinage des modèles de génération musicale.

English

We propose MusicRL, the first music generation system finetuned from human feedback. Appreciation of text-to-music models is particularly subjective since the concept of musicality as well as the specific intention behind a caption are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a retro guitar solo or a techno pop beat). Not only this makes supervised training of such models challenging, but it also calls for integrating continuous human feedback in their post-deployment finetuning. MusicRL is a pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete audio tokens finetuned with reinforcement learning to maximise sequence-level rewards. We design reward functions related specifically to text-adherence and audio quality with the help from selected raters, and use those to finetune MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model that incorporates human feedback at scale. Human evaluations show that both MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU combines the two approaches and results in the best model according to human raters. Ablation studies shed light on the musical attributes influencing human preferences, indicating that text adherence and quality only account for a part of it. This underscores the prevalence of subjectivity in musical appreciation and calls for further involvement of human listeners in the finetuning of music generation models.

MusicRL : Alignement de la génération musicale aux préférences humaines

MusicRL: Aligning Music Generation to Human Preferences

papers.abstract

Support