EmoGen: Eliminación del sesgo subjetivo en la generación de música emocional
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
Autores: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Resumen
La música se utiliza para transmitir emociones, por lo que generar música emocional es importante en la generación automática de música. Trabajos previos sobre la generación de música emocional utilizan directamente etiquetas de emociones anotadas como señales de control, lo que sufre de un sesgo subjetivo: diferentes personas pueden anotar diferentes emociones en la misma música, y una misma persona puede sentir diferentes emociones en distintas situaciones. Por lo tanto, mapear directamente las etiquetas de emociones a secuencias musicales de manera end-to-end confundiría el proceso de aprendizaje y dificultaría que el modelo genere música con emociones generales. En este artículo, proponemos EmoGen, un sistema de generación de música emocional que aprovecha un conjunto de atributos musicales relacionados con las emociones como puente entre la emoción y la música, y divide la generación en dos etapas: mapeo de emoción a atributo con agrupamiento supervisado, y generación de atributo a música con aprendizaje auto-supervisado. Ambas etapas son beneficiosas: en la primera etapa, los valores de los atributos alrededor del centro de agrupamiento representan las emociones generales de estas muestras, lo que ayuda a eliminar los impactos del sesgo subjetivo de las etiquetas de emociones; en la segunda etapa, la generación está completamente desvinculada de las etiquetas de emociones y, por lo tanto, libre del sesgo subjetivo. Tanto las evaluaciones subjetivas como las objetivas muestran que EmoGen supera a los métodos anteriores en precisión de control emocional y calidad musical respectivamente, lo que demuestra nuestra superioridad en la generación de música emocional. Las muestras de música generadas por EmoGen están disponibles en este enlace: https://ai-muzic.github.io/emogen/, y el código está disponible en este enlace: https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.