ChatPaper.aiChatPaper

EmoGen: Eliminierung subjektiver Verzerrungen bei der emotionalen Musikerzeugung

EmoGen: Eliminating Subjective Bias in Emotional Music Generation

July 3, 2023
Autoren: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI

Zusammenfassung

Musik wird verwendet, um Emotionen zu vermitteln, und daher ist die Erzeugung emotionaler Musik in der automatischen Musikgenerierung von Bedeutung. Bisherige Arbeiten zur emotionalen Musikgenerierung verwenden direkt annotierte Emotionslabels als Steuersignale, was unter subjektiven Verzerrungen leidet: Unterschiedliche Personen können unterschiedliche Emotionen für dieselbe Musik annotieren, und eine Person kann unter verschiedenen Situationen unterschiedliche Emotionen empfinden. Daher würde die direkte Abbildung von Emotionslabels auf Musiksequenzen in einem End-to-End-Verfahren den Lernprozess verwirren und das Modell daran hindern, Musik mit allgemeinen Emotionen zu erzeugen. In diesem Artikel schlagen wir EmoGen vor, ein System zur emotionalen Musikgenerierung, das eine Reihe von emotionsbezogenen Musikattributen als Brücke zwischen Emotion und Musik nutzt und die Generierung in zwei Phasen unterteilt: die Abbildung von Emotionen auf Attribute mittels überwachter Clusterbildung und die Generierung von Musik aus Attributen mittels selbstüberwachtem Lernen. Beide Phasen sind vorteilhaft: In der ersten Phase repräsentieren die Attributwerte um das Clusterzentrum herum die allgemeinen Emotionen dieser Proben, was dazu beiträgt, die Auswirkungen der subjektiven Verzerrung der Emotionslabels zu eliminieren; in der zweiten Phase ist die Generierung vollständig von Emotionslabels entkoppelt und somit frei von subjektiven Verzerrungen. Sowohl subjektive als auch objektive Bewertungen zeigen, dass EmoGen frühere Methoden in Bezug auf die Genauigkeit der Emotionssteuerung und die Musikqualität übertrifft, was unsere Überlegenheit bei der Erzeugung emotionaler Musik demonstriert. Musikproben, die von EmoGen generiert wurden, sind über diesen Link verfügbar: https://ai-muzic.github.io/emogen/, und der Code ist über diesen Link verfügbar: https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is important in automatic music generation. Previous work on emotional music generation directly uses annotated emotion labels as control signals, which suffers from subjective bias: different people may annotate different emotions on the same music, and one person may feel different emotions under different situations. Therefore, directly mapping emotion labels to music sequences in an end-to-end way would confuse the learning process and hinder the model from generating music with general emotions. In this paper, we propose EmoGen, an emotional music generation system that leverages a set of emotion-related music attributes as the bridge between emotion and music, and divides the generation into two stages: emotion-to-attribute mapping with supervised clustering, and attribute-to-music generation with self-supervised learning. Both stages are beneficial: in the first stage, the attribute values around the clustering center represent the general emotions of these samples, which help eliminate the impacts of the subjective bias of emotion labels; in the second stage, the generation is completely disentangled from emotion labels and thus free from the subjective bias. Both subjective and objective evaluations show that EmoGen outperforms previous methods on emotion control accuracy and music quality respectively, which demonstrate our superiority in generating emotional music. Music samples generated by EmoGen are available via this link:https://ai-muzic.github.io/emogen/, and the code is available at this link:https://github.com/microsoft/muzic/.
PDF50December 15, 2024