EmoGen: 感情音楽生成における主観的バイアスの排除
EmoGen: Eliminating Subjective Bias in Emotional Music Generation
July 3, 2023
著者: Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
要旨
音楽は感情を伝えるために用いられるため、感情を伴った音楽を自動生成することは重要である。これまでの感情音楽生成の研究では、注釈付けされた感情ラベルを直接制御信号として使用してきたが、これには主観的バイアスが伴う問題があった。つまり、同じ音楽に対して異なる人が異なる感情を注釈付けすることがあり、また同じ人でも状況によって異なる感情を抱くことがある。そのため、感情ラベルを音楽シーケンスに直接エンドツーエンドでマッピングしようとすると、学習プロセスが混乱し、一般的な感情を伴った音楽の生成が妨げられる。本論文では、EmoGenという感情音楽生成システムを提案する。EmoGenは、感情と音楽の橋渡しとして感情関連の音楽属性セットを活用し、生成プロセスを2段階に分ける。第1段階では、教師ありクラスタリングを用いて感情から属性へのマッピングを行い、第2段階では、自己教師あり学習を用いて属性から音楽を生成する。両段階とも有益である。第1段階では、クラスタリング中心周辺の属性値がサンプルの一般的な感情を表し、感情ラベルの主観的バイアスの影響を排除するのに役立つ。第2段階では、生成プロセスが感情ラベルから完全に切り離されるため、主観的バイアスから解放される。主観的および客観的評価の両方において、EmoGenは感情制御の精度と音楽品質の点で従来の手法を上回り、感情音楽生成における優位性が示された。EmoGenによって生成された音楽サンプルは以下のリンクから入手可能である: https://ai-muzic.github.io/emogen/、またコードは以下のリンクで公開されている: https://github.com/microsoft/muzic/。
English
Music is used to convey emotions, and thus generating emotional music is
important in automatic music generation. Previous work on emotional music
generation directly uses annotated emotion labels as control signals, which
suffers from subjective bias: different people may annotate different emotions
on the same music, and one person may feel different emotions under different
situations. Therefore, directly mapping emotion labels to music sequences in an
end-to-end way would confuse the learning process and hinder the model from
generating music with general emotions. In this paper, we propose EmoGen, an
emotional music generation system that leverages a set of emotion-related music
attributes as the bridge between emotion and music, and divides the generation
into two stages: emotion-to-attribute mapping with supervised clustering, and
attribute-to-music generation with self-supervised learning. Both stages are
beneficial: in the first stage, the attribute values around the clustering
center represent the general emotions of these samples, which help eliminate
the impacts of the subjective bias of emotion labels; in the second stage, the
generation is completely disentangled from emotion labels and thus free from
the subjective bias. Both subjective and objective evaluations show that EmoGen
outperforms previous methods on emotion control accuracy and music quality
respectively, which demonstrate our superiority in generating emotional music.
Music samples generated by EmoGen are available via this
link:https://ai-muzic.github.io/emogen/, and the code is available at this
link:https://github.com/microsoft/muzic/.