MusicRL: Alineación de la Generación Musical con las Preferencias Humanas
MusicRL: Aligning Music Generation to Human Preferences
February 6, 2024
Autores: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej Kastelic, Zalán Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem, Olivier Pietquin, Matthieu Geist, Léonard Hussenot, Neil Zeghidour, Andrea Agostinelli
cs.AI
Resumen
Proponemos MusicRL, el primer sistema de generación musical ajustado a partir de retroalimentación humana. La apreciación de los modelos de texto a música es particularmente subjetiva, ya que tanto el concepto de musicalidad como la intención específica detrás de una descripción dependen del usuario (por ejemplo, una descripción como "música animada para entrenar" puede corresponder a un solo de guitarra retro o a un ritmo de pop techno). Esto no solo hace que el entrenamiento supervisado de tales modelos sea desafiante, sino que también exige integrar retroalimentación humana continua en su ajuste posterior al despliegue. MusicRL es un modelo autoregresivo preentrenado de MusicLM (Agostinelli et al., 2023) basado en tokens de audio discretos, ajustado con aprendizaje por refuerzo para maximizar recompensas a nivel de secuencia. Diseñamos funciones de recompensa relacionadas específicamente con la adherencia al texto y la calidad del audio con la ayuda de evaluadores seleccionados, y las utilizamos para ajustar MusicLM en MusicRL-R. Desplegamos MusicLM a los usuarios y recopilamos un conjunto de datos sustancial que comprende 300,000 preferencias pareadas. Utilizando Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), entrenamos MusicRL-U, el primer modelo de texto a música que incorpora retroalimentación humana a gran escala. Las evaluaciones humanas muestran que tanto MusicRL-R como MusicRL-U son preferidos sobre el modelo base. Finalmente, MusicRL-RU combina ambos enfoques y resulta ser el mejor modelo según los evaluadores humanos. Los estudios de ablación arrojan luz sobre los atributos musicales que influyen en las preferencias humanas, indicando que la adherencia al texto y la calidad solo explican una parte de ellas. Esto subraya la prevalencia de la subjetividad en la apreciación musical y aboga por una mayor participación de los oyentes humanos en el ajuste de los modelos de generación musical.
English
We propose MusicRL, the first music generation system finetuned from human
feedback. Appreciation of text-to-music models is particularly subjective since
the concept of musicality as well as the specific intention behind a caption
are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a
retro guitar solo or a techno pop beat). Not only this makes supervised
training of such models challenging, but it also calls for integrating
continuous human feedback in their post-deployment finetuning. MusicRL is a
pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete
audio tokens finetuned with reinforcement learning to maximise sequence-level
rewards. We design reward functions related specifically to text-adherence and
audio quality with the help from selected raters, and use those to finetune
MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial
dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning
from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model
that incorporates human feedback at scale. Human evaluations show that both
MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU
combines the two approaches and results in the best model according to human
raters. Ablation studies shed light on the musical attributes influencing human
preferences, indicating that text adherence and quality only account for a part
of it. This underscores the prevalence of subjectivity in musical appreciation
and calls for further involvement of human listeners in the finetuning of music
generation models.