ChatPaper.aiChatPaper

Het aanpassen van op ontvlechting gebaseerde sprekeranonimisering voor verbeterde emotiebehoud

Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

August 12, 2024
Auteurs: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI

Samenvatting

Een algemeen op ontvlechting gebaseerd systeem voor sprekeranonimisering verdeelt spraak doorgaans in inhoud, spreker en prosodiekenmerken met behulp van afzonderlijke encoders. Dit artikel onderzoekt hoe een dergelijk systeem kan worden aangepast wanneer een nieuw spraakkenmerk, bijvoorbeeld emotie, in grotere mate behouden moet blijven. Hoewel bestaande systemen goed zijn in het anonimiseren van spreker-embeddings, zijn ze niet ontworpen om emotie te behouden. Twee strategieën hiervoor worden onderzocht. Ten eerste laten we zien dat het integreren van emotie-embeddings van een vooraf getrainde emotie-encoder kan helpen om emotionele signalen te behouden, hoewel deze aanpak de privacybescherming enigszins in gevaar brengt. Als alternatief stellen we een emotiecompensatiestrategie voor als een post-processing stap die wordt toegepast op geanonimiseerde spreker-embeddings. Dit verbergt de identiteit van de oorspronkelijke spreker en brengt de emotionele kenmerken terug die verloren zijn gegaan tijdens de anonimisering van de spreker-embedding. Specifiek modelleren we het emotiekenmerk met behulp van support vector machines om afzonderlijke grenzen voor elke emotie te leren. Tijdens inferentie wordt de oorspronkelijke spreker-embedding op twee manieren verwerkt: ten eerste door een emotie-indicator om de emotie te voorspellen en de juiste emotie-overeenkomende SVM te selecteren; en ten tweede door een sprekeranonimiseerder om sprekerkenmerken te verbergen. De geanonimiseerde spreker-embedding wordt vervolgens aangepast langs de corresponderende SVM-grens in de richting van een versterkte emotionele richting om de emotionele signalen te behouden. De voorgestelde strategieën worden ook verwacht nuttig te zijn voor het aanpassen van een algemeen op ontvlechting gebaseerd sprekeranonimiseringssysteem om andere doel-paralinguïstische kenmerken te behouden, met potentieel voor een reeks downstream taken.
English
A general disentanglement-based speaker anonymization system typically separates speech into content, speaker, and prosody features using individual encoders. This paper explores how to adapt such a system when a new speech attribute, for example, emotion, needs to be preserved to a greater extent. While existing systems are good at anonymizing speaker embeddings, they are not designed to preserve emotion. Two strategies for this are examined. First, we show that integrating emotion embeddings from a pre-trained emotion encoder can help preserve emotional cues, even though this approach slightly compromises privacy protection. Alternatively, we propose an emotion compensation strategy as a post-processing step applied to anonymized speaker embeddings. This conceals the original speaker's identity and reintroduces the emotional traits lost during speaker embedding anonymization. Specifically, we model the emotion attribute using support vector machines to learn separate boundaries for each emotion. During inference, the original speaker embedding is processed in two ways: one, by an emotion indicator to predict emotion and select the emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal speaker characteristics. The anonymized speaker embedding is then modified along the corresponding SVM boundary towards an enhanced emotional direction to save the emotional cues. The proposed strategies are also expected to be useful for adapting a general disentanglement-based speaker anonymization system to preserve other target paralinguistic attributes, with potential for a range of downstream tasks.
PDF61November 28, 2024