EmoGen: Het elimineren van subjectieve bias in de generatie van emotionele muziek

Samenvatting

Muziek wordt gebruikt om emoties over te brengen, en daarom is het genereren van emotionele muziek belangrijk bij automatische muziekgeneratie. Eerder werk op het gebied van emotionele muziekgeneratie gebruikt direct geannoteerde emotielabels als controlesignalen, wat lijdt onder subjectieve bias: verschillende mensen kunnen verschillende emoties annoteren bij dezelfde muziek, en één persoon kan onder verschillende omstandigheden verschillende emoties ervaren. Daarom zou het direct in een end-to-end manier mappen van emotielabels naar muzieksequenties het leerproces verwarren en het model belemmeren in het genereren van muziek met algemene emoties. In dit artikel stellen we EmoGen voor, een systeem voor emotionele muziekgeneratie dat gebruikmaakt van een set emotiegerelateerde muziekatributen als brug tussen emotie en muziek, en de generatie opdeelt in twee fasen: emotie-naar-attribuut mapping met gesuperviseerde clustering, en attribuut-naar-muziek generatie met zelfgesuperviseerd leren. Beide fasen zijn voordelig: in de eerste fase vertegenwoordigen de attribuutwaarden rond het clusteringcentrum de algemene emoties van deze samples, wat helpt om de invloed van de subjectieve bias van emotielabels te elimineren; in de tweede fase is de generatie volledig losgekoppeld van emotielabels en dus vrij van de subjectieve bias. Zowel subjectieve als objectieve evaluaties tonen aan dat EmoGen eerdere methoden overtreft op het gebied van emotiecontrole nauwkeurigheid en muziekkwaliteit respectievelijk, wat onze superioriteit aantoont in het genereren van emotionele muziek. Muzieksamples gegenereerd door EmoGen zijn beschikbaar via deze link: https://ai-muzic.github.io/emogen/, en de code is beschikbaar via deze link: https://github.com/microsoft/muzic/.

English

Music is used to convey emotions, and thus generating emotional music is important in automatic music generation. Previous work on emotional music generation directly uses annotated emotion labels as control signals, which suffers from subjective bias: different people may annotate different emotions on the same music, and one person may feel different emotions under different situations. Therefore, directly mapping emotion labels to music sequences in an end-to-end way would confuse the learning process and hinder the model from generating music with general emotions. In this paper, we propose EmoGen, an emotional music generation system that leverages a set of emotion-related music attributes as the bridge between emotion and music, and divides the generation into two stages: emotion-to-attribute mapping with supervised clustering, and attribute-to-music generation with self-supervised learning. Both stages are beneficial: in the first stage, the attribute values around the clustering center represent the general emotions of these samples, which help eliminate the impacts of the subjective bias of emotion labels; in the second stage, the generation is completely disentangled from emotion labels and thus free from the subjective bias. Both subjective and objective evaluations show that EmoGen outperforms previous methods on emotion control accuracy and music quality respectively, which demonstrate our superiority in generating emotional music. Music samples generated by EmoGen are available via this link:https://ai-muzic.github.io/emogen/, and the code is available at this link:https://github.com/microsoft/muzic/.

EmoGen: Het elimineren van subjectieve bias in de generatie van emotionele muziek

EmoGen: Eliminating Subjective Bias in Emotional Music Generation

Samenvatting

Support