ChatPaper.aiChatPaper

MusicRL: Ausrichtung der Musikerzeugung an menschlichen Präferenzen

MusicRL: Aligning Music Generation to Human Preferences

February 6, 2024
Autoren: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej Kastelic, Zalán Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem, Olivier Pietquin, Matthieu Geist, Léonard Hussenot, Neil Zeghidour, Andrea Agostinelli
cs.AI

Zusammenfassung

Wir stellen MusicRL vor, das erste Musikgenerierungssystem, das durch menschliches Feedback feinabgestimmt wurde. Die Bewertung von Text-zu-Musik-Modellen ist besonders subjektiv, da sowohl das Konzept der Musikalität als auch die spezifische Absicht hinter einer Beschreibung benutzerabhängig sind (z. B. kann eine Beschreibung wie „beschwingte Workout-Musik“ auf ein Retro-Gitarrensolo oder einen Techno-Pop-Beat verweisen). Dies macht nicht nur das überwachte Training solcher Modelle herausfordernd, sondern erfordert auch die Integration kontinuierlichen menschlichen Feedbacks in ihre Feinabstimmung nach der Bereitstellung. MusicRL ist ein vortrainiertes autoregressives MusicLM-Modell (Agostinelli et al., 2023) diskreter Audiotoken, das mit Verstärkungslernen feinabgestimmt wurde, um sequenzielle Belohnungen zu maximieren. Wir entwerfen Belohnungsfunktionen, die speziell auf Texttreue und Audioqualität abzielen, und nutzen diese, um MusicLM zu MusicRL-R zu verfeinern. Wir stellen MusicLM Nutzern zur Verfügung und sammeln einen umfangreichen Datensatz mit 300.000 paarweisen Präferenzen. Mithilfe von Reinforcement Learning from Human Feedback (RLHF) trainieren wir MusicRL-U, das erste Text-zu-Musik-Modell, das menschliches Feedback in großem Maßstab integriert. Menschliche Bewertungen zeigen, dass sowohl MusicRL-R als auch MusicRL-U dem Baseline-Modell vorgezogen werden. Schließlich kombiniert MusicRL-RU die beiden Ansätze und ergibt das laut menschlichen Bewertern beste Modell. Ablationsstudien beleuchten die musikalischen Attribute, die menschliche Präferenzen beeinflussen, und zeigen, dass Texttreue und Qualität nur einen Teil davon ausmachen. Dies unterstreicht die Vorherrschaft der Subjektivität in der musikalischen Wertschätzung und fordert eine stärkere Einbindung menschlicher Zuhörer in die Feinabstimmung von Musikgenerierungsmodellen.
English
We propose MusicRL, the first music generation system finetuned from human feedback. Appreciation of text-to-music models is particularly subjective since the concept of musicality as well as the specific intention behind a caption are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a retro guitar solo or a techno pop beat). Not only this makes supervised training of such models challenging, but it also calls for integrating continuous human feedback in their post-deployment finetuning. MusicRL is a pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete audio tokens finetuned with reinforcement learning to maximise sequence-level rewards. We design reward functions related specifically to text-adherence and audio quality with the help from selected raters, and use those to finetune MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model that incorporates human feedback at scale. Human evaluations show that both MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU combines the two approaches and results in the best model according to human raters. Ablation studies shed light on the musical attributes influencing human preferences, indicating that text adherence and quality only account for a part of it. This underscores the prevalence of subjectivity in musical appreciation and calls for further involvement of human listeners in the finetuning of music generation models.
PDF171December 15, 2024