EmoGen: Устранение субъективной предвзятости в генерации эмоциональной музыки
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
Авторы: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Аннотация
Музыка используется для передачи эмоций, поэтому генерация эмоциональной музыки важна в автоматическом создании музыкальных композиций. Предыдущие работы по генерации эмоциональной музыки напрямую используют аннотированные метки эмоций в качестве управляющих сигналов, что страдает от субъективной предвзятости: разные люди могут аннотировать разные эмоции для одной и той же музыки, а один человек может испытывать разные эмоции в разных ситуациях. Таким образом, прямое отображение меток эмоций в музыкальные последовательности в сквозном режиме может запутать процесс обучения и помешать модели генерировать музыку с общими эмоциями. В данной статье мы предлагаем EmoGen, систему генерации эмоциональной музыки, которая использует набор музыкальных атрибутов, связанных с эмоциями, в качестве моста между эмоциями и музыкой, и разделяет генерацию на два этапа: отображение эмоций в атрибуты с использованием контролируемой кластеризации и генерация музыки из атрибутов с использованием самообучения. Оба этапа полезны: на первом этапе значения атрибутов вокруг центра кластеризации представляют общие эмоции этих образцов, что помогает устранить влияние субъективной предвзятости меток эмоций; на втором этапе генерация полностью отделена от меток эмоций и, следовательно, свободна от субъективной предвзятости. Как субъективные, так и объективные оценки показывают, что EmoGen превосходит предыдущие методы по точности управления эмоциями и качеству музыки соответственно, что демонстрирует наше превосходство в генерации эмоциональной музыки. Примеры музыки, созданной с помощью EmoGen, доступны по ссылке: https://ai-muzic.github.io/emogen/, а код доступен по ссылке: https://github.com/microsoft/muzic/.
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.