EmoGen: Het elimineren van subjectieve bias in de generatie van emotionele muziek
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
Auteurs: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Samenvatting
Muziek wordt gebruikt om emoties over te brengen, en daarom is het genereren van emotionele muziek belangrijk bij automatische muziekgeneratie. Eerder werk op het gebied van emotionele muziekgeneratie gebruikt direct geannoteerde emotielabels als controlesignalen, wat lijdt onder subjectieve bias: verschillende mensen kunnen verschillende emoties annoteren bij dezelfde muziek, en één persoon kan onder verschillende omstandigheden verschillende emoties ervaren. Daarom zou het direct in een end-to-end manier mappen van emotielabels naar muzieksequenties het leerproces verwarren en het model belemmeren in het genereren van muziek met algemene emoties. In dit artikel stellen we EmoGen voor, een systeem voor emotionele muziekgeneratie dat gebruikmaakt van een set emotiegerelateerde muziekatributen als brug tussen emotie en muziek, en de generatie opdeelt in twee fasen: emotie-naar-attribuut mapping met gesuperviseerde clustering, en attribuut-naar-muziek generatie met zelfgesuperviseerd leren. Beide fasen zijn voordelig: in de eerste fase vertegenwoordigen de attribuutwaarden rond het clusteringcentrum de algemene emoties van deze samples, wat helpt om de invloed van de subjectieve bias van emotielabels te elimineren; in de tweede fase is de generatie volledig losgekoppeld van emotielabels en dus vrij van de subjectieve bias. Zowel subjectieve als objectieve evaluaties tonen aan dat EmoGen eerdere methoden overtreft op het gebied van emotiecontrole nauwkeurigheid en muziekkwaliteit respectievelijk, wat onze superioriteit aantoont in het genereren van emotionele muziek. Muzieksamples gegenereerd door EmoGen zijn beschikbaar via deze link: https://ai-muzic.github.io/emogen/, en de code is beschikbaar via deze link: https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.