EmoGen: Eliminazione del Bias Soggettivo nella Generazione di Musica Emotiva
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
Autori: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Abstract
La musica è utilizzata per trasmettere emozioni, e quindi la generazione di musica emotiva è importante nella generazione automatica di musica. I precedenti lavori sulla generazione di musica emotiva utilizzano direttamente etichette di emozioni annotate come segnali di controllo, il che soffre di un bias soggettivo: persone diverse possono annotare emozioni diverse sulla stessa musica, e una stessa persona può provare emozioni diverse in situazioni differenti. Pertanto, mappare direttamente le etichette di emozioni alle sequenze musicali in modo end-to-end confonderebbe il processo di apprendimento e ostacolerebbe il modello nel generare musica con emozioni generali. In questo articolo, proponiamo EmoGen, un sistema di generazione di musica emotiva che sfrutta un insieme di attributi musicali legati alle emozioni come ponte tra emozione e musica, e divide la generazione in due fasi: mappatura da emozione ad attributo con clustering supervisionato, e generazione da attributo a musica con apprendimento auto-supervisionato. Entrambe le fasi sono vantaggiose: nella prima fase, i valori degli attributi intorno al centro del clustering rappresentano le emozioni generali di questi campioni, il che aiuta a eliminare gli impatti del bias soggettivo delle etichette di emozione; nella seconda fase, la generazione è completamente disaccoppiata dalle etichette di emozione e quindi libera dal bias soggettivo. Valutazioni sia soggettive che oggettive mostrano che EmoGen supera i metodi precedenti rispettivamente in termini di accuratezza nel controllo delle emozioni e qualità della musica, dimostrando la nostra superiorità nella generazione di musica emotiva. Campioni musicali generati da EmoGen sono disponibili al seguente link: https://ai-muzic.github.io/emogen/, e il codice è disponibile al seguente link: https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.