ChatPaper.aiChatPaper

Adaptation de l'anonymisation des locuteurs basée sur le désentrelacement général pour une meilleure préservation des émotions

Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

August 12, 2024
Auteurs: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI

Résumé

Un système général d'anonymisation des locuteurs basé sur le désentrelacement sépare typiquement la parole en caractéristiques de contenu, de locuteur et de prosodie à l'aide d'encodeurs individuels. Cet article explore comment adapter un tel système lorsqu'un nouvel attribut de parole, par exemple l'émotion, doit être préservé de manière plus importante. Bien que les systèmes existants soient efficaces pour anonymiser les embeddings de locuteurs, ils ne sont pas conçus pour préserver l'émotion. Deux stratégies sont examinées pour cela. Premièrement, nous montrons que l'intégration d'embeddings d'émotion provenant d'un encodeur d'émotion pré-entraîné peut aider à préserver les indices émotionnels, bien que cette approche compromette légèrement la protection de la vie privée. Alternativement, nous proposons une stratégie de compensation de l'émotion comme étape de post-traitement appliquée aux embeddings de locuteurs anonymisés. Cela masque l'identité du locuteur d'origine et réintroduit les traits émotionnels perdus lors de l'anonymisation des embeddings de locuteurs. Plus précisément, nous modélisons l'attribut d'émotion en utilisant des machines à vecteurs de support pour apprendre des frontières distinctes pour chaque émotion. Lors de l'inférence, l'embedding du locuteur d'origine est traité de deux manières : premièrement, par un indicateur d'émotion pour prédire l'émotion et sélectionner avec précision la SVM correspondante à l'émotion ; deuxièmement, par un anonymiseur de locuteur pour masquer les caractéristiques du locuteur. L'embedding du locuteur anonymisé est ensuite modifié le long de la frontière SVM correspondante vers une direction émotionnelle améliorée pour sauvegarder les indices émotionnels. Les stratégies proposées sont également censées être utiles pour adapter un système général d'anonymisation des locuteurs basé sur le désentrelacement afin de préserver d'autres attributs paralinguistiques cibles, avec un potentiel pour une gamme de tâches en aval.
English
A general disentanglement-based speaker anonymization system typically separates speech into content, speaker, and prosody features using individual encoders. This paper explores how to adapt such a system when a new speech attribute, for example, emotion, needs to be preserved to a greater extent. While existing systems are good at anonymizing speaker embeddings, they are not designed to preserve emotion. Two strategies for this are examined. First, we show that integrating emotion embeddings from a pre-trained emotion encoder can help preserve emotional cues, even though this approach slightly compromises privacy protection. Alternatively, we propose an emotion compensation strategy as a post-processing step applied to anonymized speaker embeddings. This conceals the original speaker's identity and reintroduces the emotional traits lost during speaker embedding anonymization. Specifically, we model the emotion attribute using support vector machines to learn separate boundaries for each emotion. During inference, the original speaker embedding is processed in two ways: one, by an emotion indicator to predict emotion and select the emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal speaker characteristics. The anonymized speaker embedding is then modified along the corresponding SVM boundary towards an enhanced emotional direction to save the emotional cues. The proposed strategies are also expected to be useful for adapting a general disentanglement-based speaker anonymization system to preserve other target paralinguistic attributes, with potential for a range of downstream tasks.

Summary

AI-Generated Summary

PDF61November 28, 2024