강화된 감정 보존을 위한 일반적인 해체 기반 화자 익명화 적응하기
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation
August 12, 2024
저자: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI
초록
일반적인 해체 기반 화자 익명화 시스템은 일반적으로 음성을 콘텐츠, 화자 및 억양 특징으로 분리하기 위해 개별 인코더를 사용합니다. 본 논문은 새로운 음성 속성, 예를 들어 감정,을 보다 큰 extent로 보존해야 할 때 이러한 시스템을 어떻게 적응시킬지 탐구합니다. 기존 시스템은 화자 임베딩을 익명화하는 데 능숙하지만 감정을 보존하도록 설계되지는 않았습니다. 이에 대한 두 가지 전략이 검토됩니다. 먼저, 사전 훈련된 감정 인코더로부터 감정 임베딩을 통합하는 것이 감정적 단서를 보존하는 데 도움이 될 수 있음을 보여줍니다. 비록 이 방법이 개인 정보 보호를 약간 희생시키지만요. 또는, 우리는 감정 보상 전략을 제안합니다. 이는 익명화된 화자 임베딩에 적용되는 후처리 단계로, 원래 화자의 신원을 숨기고 화자 임베딩 익명화 중에 상실된 감정적 특성을 재도입합니다. 구체적으로, 각 감정에 대해 별도의 경계를 학습하기 위해 서포트 벡터 머신을 사용하여 감정 속성을 모델링합니다. 추론 중에, 원래 화자 임베딩은 두 가지 방식으로 처리됩니다. 하나는 감정 지시기에 의해 감정을 예측하고 감정과 일치하는 SVM을 정확하게 선택하는 것이고, 둘은 화자 익명화기에 의해 화자 특성을 숨기는 것입니다. 그런 다음 익명화된 화자 임베딩은 감정적 방향을 향해 해당 SVM 경계를 따라 수정되어 감정적 단서를 보존합니다. 제안된 전략은 또한 일반적인 해체 기반 화자 익명화 시스템을 다른 대상 언어적 속성을 보존하도록 적응하는 데 유용할 것으로 예상되며, 다양한 하향 작업의 잠재력을 가질 것으로 기대됩니다.
English
A general disentanglement-based speaker anonymization system typically
separates speech into content, speaker, and prosody features using individual
encoders. This paper explores how to adapt such a system when a new speech
attribute, for example, emotion, needs to be preserved to a greater extent.
While existing systems are good at anonymizing speaker embeddings, they are not
designed to preserve emotion. Two strategies for this are examined. First, we
show that integrating emotion embeddings from a pre-trained emotion encoder can
help preserve emotional cues, even though this approach slightly compromises
privacy protection. Alternatively, we propose an emotion compensation strategy
as a post-processing step applied to anonymized speaker embeddings. This
conceals the original speaker's identity and reintroduces the emotional traits
lost during speaker embedding anonymization. Specifically, we model the emotion
attribute using support vector machines to learn separate boundaries for each
emotion. During inference, the original speaker embedding is processed in two
ways: one, by an emotion indicator to predict emotion and select the
emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal
speaker characteristics. The anonymized speaker embedding is then modified
along the corresponding SVM boundary towards an enhanced emotional direction to
save the emotional cues. The proposed strategies are also expected to be useful
for adapting a general disentanglement-based speaker anonymization system to
preserve other target paralinguistic attributes, with potential for a range of
downstream tasks.Summary
AI-Generated Summary