MusicRL: Согласование генерации музыки с человеческими предпочтениями
MusicRL: Aligning Music Generation to Human Preferences
February 6, 2024
Авторы: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej Kastelic, Zalán Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem, Olivier Pietquin, Matthieu Geist, Léonard Hussenot, Neil Zeghidour, Andrea Agostinelli
cs.AI
Аннотация
Мы представляем MusicRL — первую систему генерации музыки, дообученную на основе человеческих предпочтений. Оценка моделей, преобразующих текст в музыку, особенно субъективна, поскольку понятие музыкальности, а также конкретное намерение, стоящее за описанием, зависят от пользователя (например, описание вроде "энергичная музыка для тренировок" может соответствовать ретро-гитарному соло или техно-поп-биту). Это не только усложняет обучение таких моделей с учителем, но и требует интеграции непрерывной обратной связи от пользователей в процесс их дообучения после развертывания. MusicRL представляет собой предобученную авторегрессионную модель MusicLM (Agostinelli et al., 2023), работающую с дискретными аудиотокенами и дообученную с использованием обучения с подкреплением для максимизации наград на уровне последовательностей. Мы разрабатываем функции награды, связанные с соответствием тексту и качеством звука, с помощью выбранных оценщиков, и используем их для дообучения MusicLM до версии MusicRL-R. Мы развертываем MusicLM для пользователей и собираем обширный набор данных, включающий 300 000 парных предпочтений. С помощью обучения с подкреплением на основе человеческой обратной связи (RLHF) мы обучаем MusicRL-U — первую модель преобразования текста в музыку, которая учитывает человеческие предпочтения в масштабе. Оценки пользователей показывают, что как MusicRL-R, так и MusicRL-U предпочтительнее базовой модели. В итоге MusicRL-RU объединяет оба подхода и становится лучшей моделью по мнению оценщиков. Абляционные исследования проливают свет на музыкальные атрибуты, влияющие на предпочтения пользователей, указывая, что соответствие тексту и качество звука объясняют лишь часть этих предпочтений. Это подчеркивает преобладание субъективности в оценке музыки и требует дальнейшего вовлечения слушателей в процесс дообучения моделей генерации музыки.
English
We propose MusicRL, the first music generation system finetuned from human
feedback. Appreciation of text-to-music models is particularly subjective since
the concept of musicality as well as the specific intention behind a caption
are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a
retro guitar solo or a techno pop beat). Not only this makes supervised
training of such models challenging, but it also calls for integrating
continuous human feedback in their post-deployment finetuning. MusicRL is a
pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete
audio tokens finetuned with reinforcement learning to maximise sequence-level
rewards. We design reward functions related specifically to text-adherence and
audio quality with the help from selected raters, and use those to finetune
MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial
dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning
from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model
that incorporates human feedback at scale. Human evaluations show that both
MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU
combines the two approaches and results in the best model according to human
raters. Ablation studies shed light on the musical attributes influencing human
preferences, indicating that text adherence and quality only account for a part
of it. This underscores the prevalence of subjectivity in musical appreciation
and calls for further involvement of human listeners in the finetuning of music
generation models.