ChatPaper.aiChatPaper

EmoGen: 감정 음악 생성에서 주관적 편향 제거

EmoGen: Eliminating Subjective Bias in Emotional Music Generation

July 3, 2023
저자: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI

초록

음악은 감정을 전달하기 위해 사용되며, 따라서 감정적 음악을 생성하는 것은 자동 음악 생성에서 중요합니다. 기존의 감정적 음악 생성 연구에서는 주석이 달린 감정 레이블을 직접 제어 신호로 사용했는데, 이는 주관적 편향에 취약합니다: 같은 음악에 대해 다른 사람들이 서로 다른 감정을 주석으로 달 수 있으며, 한 사람도 상황에 따라 다른 감정을 느낄 수 있습니다. 따라서 감정 레이블을 음악 시퀀스로 직접 매핑하는 엔드투엔드 방식은 학습 과정을 혼란스럽게 하고, 모델이 일반적인 감정을 가진 음악을 생성하는 것을 방해할 수 있습니다. 본 논문에서는 감정과 음악 사이의 다리 역할을 하는 일련의 감정 관련 음악 속성을 활용하고, 생성 과정을 두 단계로 나누는 EmoGen이라는 감정적 음악 생성 시스템을 제안합니다: 감정-속성 매핑은 지도 클러스터링을 통해, 속성-음악 생성은 자기 지도 학습을 통해 수행됩니다. 두 단계 모두 장점이 있습니다: 첫 번째 단계에서는 클러스터링 중심 주변의 속성 값이 샘플들의 일반적인 감정을 나타내어 감정 레이블의 주관적 편향의 영향을 제거하는 데 도움을 줍니다; 두 번째 단계에서는 생성이 감정 레이블과 완전히 분리되어 주관적 편향에서 자유롭습니다. 주관적 및 객관적 평가 모두에서 EmoGen은 감정 제어 정확도와 음악 품질 측면에서 기존 방법들을 능가하며, 이는 감정적 음악 생성에서의 우수성을 입증합니다. EmoGen으로 생성된 음악 샘플은 https://ai-muzic.github.io/emogen/에서 확인할 수 있으며, 코드는 https://github.com/microsoft/muzic/에서 이용 가능합니다.
English
Music is used to convey emotions, and thus generating emotional music is important in automatic music generation. Previous work on emotional music generation directly uses annotated emotion labels as control signals, which suffers from subjective bias: different people may annotate different emotions on the same music, and one person may feel different emotions under different situations. Therefore, directly mapping emotion labels to music sequences in an end-to-end way would confuse the learning process and hinder the model from generating music with general emotions. In this paper, we propose EmoGen, an emotional music generation system that leverages a set of emotion-related music attributes as the bridge between emotion and music, and divides the generation into two stages: emotion-to-attribute mapping with supervised clustering, and attribute-to-music generation with self-supervised learning. Both stages are beneficial: in the first stage, the attribute values around the clustering center represent the general emotions of these samples, which help eliminate the impacts of the subjective bias of emotion labels; in the second stage, the generation is completely disentangled from emotion labels and thus free from the subjective bias. Both subjective and objective evaluations show that EmoGen outperforms previous methods on emotion control accuracy and music quality respectively, which demonstrate our superiority in generating emotional music. Music samples generated by EmoGen are available via this link:https://ai-muzic.github.io/emogen/, and the code is available at this link:https://github.com/microsoft/muzic/.
PDF50December 15, 2024