MusicRL : Alignement de la génération musicale aux préférences humaines
MusicRL: Aligning Music Generation to Human Preferences
February 6, 2024
Auteurs: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej Kastelic, Zalán Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem, Olivier Pietquin, Matthieu Geist, Léonard Hussenot, Neil Zeghidour, Andrea Agostinelli
cs.AI
Résumé
Nous proposons MusicRL, le premier système de génération musicale affiné à partir de retours humains. L'appréciation des modèles de texte-à-musique est particulièrement subjective, car la notion de musicalité ainsi que l'intention spécifique derrière une description dépendent de l'utilisateur (par exemple, une description telle que "musique entraînante pour le sport" peut correspondre à un solo de guitare rétro ou à un rythme techno pop). Non seulement cela rend l'entraînement supervisé de tels modèles complexe, mais cela nécessite également l'intégration de retours humains continus dans leur affinage post-déploiement. MusicRL est un modèle autoregressif pré-entraîné MusicLM (Agostinelli et al., 2023) de tokens audio discrets, affiné par apprentissage par renforcement pour maximiser les récompenses au niveau de la séquence. Nous concevons des fonctions de récompense spécifiquement liées à l'adhésion au texte et à la qualité audio avec l'aide de juges sélectionnés, et les utilisons pour affiner MusicLM en MusicRL-R. Nous déployons MusicLM auprès des utilisateurs et collectons un ensemble de données substantiel comprenant 300 000 préférences par paires. En utilisant l'apprentissage par renforcement à partir de retours humains (RLHF), nous entraînons MusicRL-U, le premier modèle texte-à-musique intégrant des retours humains à grande échelle. Les évaluations humaines montrent que MusicRL-R et MusicRL-U sont préférés au modèle de référence. Enfin, MusicRL-RU combine les deux approches et aboutit au meilleur modèle selon les juges humains. Des études d'ablation mettent en lumière les attributs musicaux influençant les préférences humaines, indiquant que l'adhésion au texte et la qualité n'en représentent qu'une partie. Cela souligne la prévalence de la subjectivité dans l'appréciation musicale et appelle à une implication accrue des auditeurs humains dans l'affinage des modèles de génération musicale.
English
We propose MusicRL, the first music generation system finetuned from human
feedback. Appreciation of text-to-music models is particularly subjective since
the concept of musicality as well as the specific intention behind a caption
are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a
retro guitar solo or a techno pop beat). Not only this makes supervised
training of such models challenging, but it also calls for integrating
continuous human feedback in their post-deployment finetuning. MusicRL is a
pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete
audio tokens finetuned with reinforcement learning to maximise sequence-level
rewards. We design reward functions related specifically to text-adherence and
audio quality with the help from selected raters, and use those to finetune
MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial
dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning
from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model
that incorporates human feedback at scale. Human evaluations show that both
MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU
combines the two approaches and results in the best model according to human
raters. Ablation studies shed light on the musical attributes influencing human
preferences, indicating that text adherence and quality only account for a part
of it. This underscores the prevalence of subjectivity in musical appreciation
and calls for further involvement of human listeners in the finetuning of music
generation models.