EmoGen : Élimination des biais subjectifs dans la génération de musique émotionnelle
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
Auteurs: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Résumé
La musique est utilisée pour transmettre des émotions, et donc la génération de musique émotionnelle est importante dans la création musicale automatique. Les travaux précédents sur la génération de musique émotionnelle utilisent directement des étiquettes d'émotion annotées comme signaux de contrôle, ce qui souffre d'un biais subjectif : différentes personnes peuvent annoter des émotions différentes pour la même musique, et une même personne peut ressentir des émotions différentes selon les situations. Par conséquent, mapper directement les étiquettes d'émotion à des séquences musicales de manière end-to-end brouillerait le processus d'apprentissage et empêcherait le modèle de générer une musique avec des émotions générales. Dans cet article, nous proposons EmoGen, un système de génération de musique émotionnelle qui exploite un ensemble d'attributs musicaux liés aux émotions comme pont entre l'émotion et la musique, et divise la génération en deux étapes : le mapping émotion-vers-attribut avec clustering supervisé, et la génération attribut-vers-musique avec apprentissage auto-supervisé. Les deux étapes sont bénéfiques : dans la première étape, les valeurs d'attribut autour du centre de clustering représentent les émotions générales de ces échantillons, ce qui aide à éliminer les impacts du biais subjectif des étiquettes d'émotion ; dans la seconde étape, la génération est complètement dissociée des étiquettes d'émotion et donc libre de tout biais subjectif. Les évaluations subjectives et objectives montrent qu'EmoGen surpasse les méthodes précédentes en termes de précision du contrôle émotionnel et de qualité musicale respectivement, ce qui démontre notre supériorité dans la génération de musique émotionnelle. Des échantillons musicaux générés par EmoGen sont disponibles via ce lien : https://ai-muzic.github.io/emogen/, et le code est disponible à cette adresse : https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.