一般的な分離ベースの話者匿名化手法を適応し、感情保存を強化する
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation
August 12, 2024
著者: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI
要旨
一般的な分離ベースの話者匿名化システムは、通常、個別のエンコーダを使用して音声を内容、話者、およびプロソディの特徴に分離します。本論文では、新しい音声属性(例えば、感情)をより多く保持する必要がある場合に、このようなシステムをどのように適応させるかを探ります。既存のシステムは話者埋め込みを匿名化するのに優れていますが、感情を保持するようには設計されていません。このための2つの戦略を検討します。まず、事前に訓練された感情エンコーダから感情埋め込みを統合することで、プライバシー保護がわずかに損なわれるものの、感情の手がかりを保持できることを示します。あるいは、匿名化された話者埋め込みに適用する後処理ステップとして、感情補償戦略を提案します。これにより、元の話者の身元を隠蔽し、話者埋め込みの匿名化中に失われた感情的特徴を再導入します。具体的には、サポートベクターマシンを使用して感情属性をモデル化し、各感情に対して個別の境界を学習します。推論時には、元の話者埋め込みを2つの方法で処理します。1つは、感情インジケータを使用して感情を予測し、正確に感情に一致するSVMを選択する方法です。もう1つは、話者匿名化器を使用して話者の特徴を隠蔽する方法です。その後、匿名化された話者埋め込みを対応するSVM境界に沿って強化された感情方向に修正し、感情の手がかりを保持します。提案された戦略は、一般的な分離ベースの話者匿名化システムを他の目標とするパラ言語属性を保持するように適応させるためにも有用であり、幅広い下流タスクに潜在的な可能性を秘めています。
English
A general disentanglement-based speaker anonymization system typically
separates speech into content, speaker, and prosody features using individual
encoders. This paper explores how to adapt such a system when a new speech
attribute, for example, emotion, needs to be preserved to a greater extent.
While existing systems are good at anonymizing speaker embeddings, they are not
designed to preserve emotion. Two strategies for this are examined. First, we
show that integrating emotion embeddings from a pre-trained emotion encoder can
help preserve emotional cues, even though this approach slightly compromises
privacy protection. Alternatively, we propose an emotion compensation strategy
as a post-processing step applied to anonymized speaker embeddings. This
conceals the original speaker's identity and reintroduces the emotional traits
lost during speaker embedding anonymization. Specifically, we model the emotion
attribute using support vector machines to learn separate boundaries for each
emotion. During inference, the original speaker embedding is processed in two
ways: one, by an emotion indicator to predict emotion and select the
emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal
speaker characteristics. The anonymized speaker embedding is then modified
along the corresponding SVM boundary towards an enhanced emotional direction to
save the emotional cues. The proposed strategies are also expected to be useful
for adapting a general disentanglement-based speaker anonymization system to
preserve other target paralinguistic attributes, with potential for a range of
downstream tasks.Summary
AI-Generated Summary