EmoGen: Eliminando o Viés Subjetivo na Geração de Música Emocional
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
Autores: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Resumo
A música é utilizada para transmitir emoções, e, portanto, a geração de música emocional é importante na criação automática de música. Trabalhos anteriores sobre geração de música emocional utilizam diretamente rótulos de emoções anotados como sinais de controle, o que sofre com o viés subjetivo: diferentes pessoas podem anotar emoções distintas para a mesma música, e uma mesma pessoa pode sentir emoções diferentes em situações diversas. Portanto, mapear diretamente rótulos de emoções para sequências musicais de forma end-to-end confundiria o processo de aprendizado e impediria o modelo de gerar música com emoções gerais. Neste artigo, propomos o EmoGen, um sistema de geração de música emocional que utiliza um conjunto de atributos musicais relacionados a emoções como ponte entre a emoção e a música, e divide a geração em duas etapas: mapeamento de emoção para atributo com agrupamento supervisionado, e geração de atributo para música com aprendizado auto-supervisionado. Ambas as etapas são benéficas: na primeira etapa, os valores dos atributos em torno do centro do agrupamento representam as emoções gerais dessas amostras, o que ajuda a eliminar os impactos do viés subjetivo dos rótulos de emoção; na segunda etapa, a geração é completamente desvinculada dos rótulos de emoção e, portanto, livre do viés subjetivo. Avaliações subjetivas e objetivas mostram que o EmoGen supera métodos anteriores em precisão de controle emocional e qualidade musical, respectivamente, o que demonstra nossa superioridade na geração de música emocional. Amostras de música geradas pelo EmoGen estão disponíveis no link: https://ai-muzic.github.io/emogen/, e o código está disponível no link: https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.