EmoGen: Eliminierung subjektiver Verzerrungen bei der emotionalen Musikerzeugung
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
Autoren: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Zusammenfassung
Musik wird verwendet, um Emotionen zu vermitteln, und daher ist die Erzeugung emotionaler Musik in der automatischen Musikgenerierung von Bedeutung. Bisherige Arbeiten zur emotionalen Musikgenerierung verwenden direkt annotierte Emotionslabels als Steuersignale, was unter subjektiven Verzerrungen leidet: Unterschiedliche Personen können unterschiedliche Emotionen für dieselbe Musik annotieren, und eine Person kann unter verschiedenen Situationen unterschiedliche Emotionen empfinden. Daher würde die direkte Abbildung von Emotionslabels auf Musiksequenzen in einem End-to-End-Verfahren den Lernprozess verwirren und das Modell daran hindern, Musik mit allgemeinen Emotionen zu erzeugen. In diesem Artikel schlagen wir EmoGen vor, ein System zur emotionalen Musikgenerierung, das eine Reihe von emotionsbezogenen Musikattributen als Brücke zwischen Emotion und Musik nutzt und die Generierung in zwei Phasen unterteilt: die Abbildung von Emotionen auf Attribute mittels überwachter Clusterbildung und die Generierung von Musik aus Attributen mittels selbstüberwachtem Lernen. Beide Phasen sind vorteilhaft: In der ersten Phase repräsentieren die Attributwerte um das Clusterzentrum herum die allgemeinen Emotionen dieser Proben, was dazu beiträgt, die Auswirkungen der subjektiven Verzerrung der Emotionslabels zu eliminieren; in der zweiten Phase ist die Generierung vollständig von Emotionslabels entkoppelt und somit frei von subjektiven Verzerrungen. Sowohl subjektive als auch objektive Bewertungen zeigen, dass EmoGen frühere Methoden in Bezug auf die Genauigkeit der Emotionssteuerung und die Musikqualität übertrifft, was unsere Überlegenheit bei der Erzeugung emotionaler Musik demonstriert. Musikproben, die von EmoGen generiert wurden, sind über diesen Link verfügbar: https://ai-muzic.github.io/emogen/, und der Code ist über diesen Link verfügbar: https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.