Adattamento dell'anonimizzazione del parlante basata su disaccoppiamento generale per una migliore conservazione delle emozioni
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation
August 12, 2024
Autori: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI
Abstract
Un sistema generale di anonimizzazione del parlante basato sul disaccoppiamento tipicamente separa il parlato in caratteristiche di contenuto, parlante e prosodia utilizzando encoder individuali. Questo articolo esplora come adattare un tale sistema quando un nuovo attributo del parlato, ad esempio l'emozione, deve essere preservato in misura maggiore. Mentre i sistemi esistenti sono efficaci nell'anonimizzare gli embedding del parlante, non sono progettati per preservare l'emozione. Vengono esaminate due strategie per questo scopo. In primo luogo, dimostriamo che l'integrazione di embedding emotivi da un encoder di emozioni pre-addestrato può aiutare a preservare gli indizi emotivi, sebbene questo approccio comprometta leggermente la protezione della privacy. In alternativa, proponiamo una strategia di compensazione dell'emozione come passaggio di post-elaborazione applicato agli embedding del parlante anonimizzati. Questo nasconde l'identità del parlante originale e reintroduce i tratti emotivi persi durante l'anonimizzazione degli embedding del parlante. Nello specifico, modelliamo l'attributo dell'emozione utilizzando macchine a vettori di supporto per apprendere confini separati per ciascuna emozione. Durante l'inferenza, l'embedding del parlante originale viene elaborato in due modi: uno, da un indicatore di emozione per prevedere l'emozione e selezionare accuratamente la SVM corrispondente all'emozione; e due, da un anonimizzatore del parlante per nascondere le caratteristiche del parlante. L'embedding del parlante anonimizzato viene quindi modificato lungo il corrispondente confine SVM verso una direzione emotiva potenziata per salvare gli indizi emotivi. Le strategie proposte sono inoltre ritenute utili per adattare un sistema generale di anonimizzazione del parlante basato sul disaccoppiamento per preservare altri attributi paralinguistici target, con potenzialità per una gamma di task downstream.
English
A general disentanglement-based speaker anonymization system typically
separates speech into content, speaker, and prosody features using individual
encoders. This paper explores how to adapt such a system when a new speech
attribute, for example, emotion, needs to be preserved to a greater extent.
While existing systems are good at anonymizing speaker embeddings, they are not
designed to preserve emotion. Two strategies for this are examined. First, we
show that integrating emotion embeddings from a pre-trained emotion encoder can
help preserve emotional cues, even though this approach slightly compromises
privacy protection. Alternatively, we propose an emotion compensation strategy
as a post-processing step applied to anonymized speaker embeddings. This
conceals the original speaker's identity and reintroduces the emotional traits
lost during speaker embedding anonymization. Specifically, we model the emotion
attribute using support vector machines to learn separate boundaries for each
emotion. During inference, the original speaker embedding is processed in two
ways: one, by an emotion indicator to predict emotion and select the
emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal
speaker characteristics. The anonymized speaker embedding is then modified
along the corresponding SVM boundary towards an enhanced emotional direction to
save the emotional cues. The proposed strategies are also expected to be useful
for adapting a general disentanglement-based speaker anonymization system to
preserve other target paralinguistic attributes, with potential for a range of
downstream tasks.