Anpassung der allgemeinen entwirrungsbasierten Sprecheranonymisierung zur Verbesserung der Emotionserhaltung
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation
August 12, 2024
Autoren: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI
Zusammenfassung
Ein allgemeines Entflechtungs-basiertes System zur Sprecheranonymisierung trennt typischerweise Sprache in Inhalts-, Sprecher- und Prosodie-Merkmale mithilfe einzelner Encoder. Diese Arbeit untersucht, wie man ein solches System anpasst, wenn ein neues Sprachmerkmal, zum Beispiel Emotion, in größerem Maße bewahrt werden muss. Während bestehende Systeme gut darin sind, Sprecher-Einbettungen zu anonymisieren, sind sie nicht darauf ausgelegt, Emotionen zu bewahren. Zwei Strategien hierfür werden untersucht. Zunächst zeigen wir, dass die Integration von Emotions-Einbettungen aus einem vorab trainierten Emotions-Encoder dazu beitragen kann, emotionale Hinweise zu bewahren, obwohl dieser Ansatz die Datenschutzmaßnahmen leicht beeinträchtigt. Alternativ schlagen wir eine Emotionsausgleichsstrategie als Nachbearbeitungsschritt für anonymisierte Sprecher-Einbettungen vor. Diese verbirgt die Identität des ursprünglichen Sprechers und führt die während der Anonymisierung der Sprecher-Einbettung verlorenen emotionalen Merkmale wieder ein. Speziell modellieren wir das Emotionsmerkmal mithilfe von Support Vector Machines, um separate Grenzen für jede Emotion zu erlernen. Während der Inferenz wird die ursprüngliche Sprecher-Einbettung auf zwei Arten verarbeitet: erstens durch einen Emotionsindikator zur Vorhersage der Emotion und Auswahl der passenden SVM für die Emotion; und zweitens durch einen Sprecher-Anonymisierer zur Verdeckung der Sprechereigenschaften. Die anonymisierte Sprecher-Einbettung wird dann entlang der entsprechenden SVM-Grenze in Richtung einer verbesserten emotionalen Ausrichtung modifiziert, um die emotionalen Hinweise zu bewahren. Es wird erwartet, dass die vorgeschlagenen Strategien auch nützlich sind, um ein allgemeines Entflechtungs-basiertes System zur Sprecheranonymisierung an andere Ziel-Paralinguistikmerkmale anzupassen, mit Potenzial für eine Vielzahl von nachgelagerten Aufgaben.
English
A general disentanglement-based speaker anonymization system typically
separates speech into content, speaker, and prosody features using individual
encoders. This paper explores how to adapt such a system when a new speech
attribute, for example, emotion, needs to be preserved to a greater extent.
While existing systems are good at anonymizing speaker embeddings, they are not
designed to preserve emotion. Two strategies for this are examined. First, we
show that integrating emotion embeddings from a pre-trained emotion encoder can
help preserve emotional cues, even though this approach slightly compromises
privacy protection. Alternatively, we propose an emotion compensation strategy
as a post-processing step applied to anonymized speaker embeddings. This
conceals the original speaker's identity and reintroduces the emotional traits
lost during speaker embedding anonymization. Specifically, we model the emotion
attribute using support vector machines to learn separate boundaries for each
emotion. During inference, the original speaker embedding is processed in two
ways: one, by an emotion indicator to predict emotion and select the
emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal
speaker characteristics. The anonymized speaker embedding is then modified
along the corresponding SVM boundary towards an enhanced emotional direction to
save the emotional cues. The proposed strategies are also expected to be useful
for adapting a general disentanglement-based speaker anonymization system to
preserve other target paralinguistic attributes, with potential for a range of
downstream tasks.Summary
AI-Generated Summary