Adaptación de la Anonimización de Hablantes Basada en la Desentrelazamiento General para una Preservación Mejorada de las Emociones.
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation
August 12, 2024
Autores: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI
Resumen
Un sistema general de anonimización de locutores basado en el desentrelazado típicamente separa el habla en características de contenido, locutor y prosodia utilizando codificadores individuales. Este documento explora cómo adaptar dicho sistema cuando se necesita preservar en mayor medida un nuevo atributo del habla, por ejemplo, la emoción. Si bien los sistemas existentes son buenos para anonimizar las incrustaciones de locutores, no están diseñados para preservar la emoción. Se examinan dos estrategias para esto. En primer lugar, mostramos que integrar incrustaciones de emoción de un codificador de emoción preentrenado puede ayudar a preservar las señales emocionales, aunque este enfoque compromete ligeramente la protección de la privacidad. Como alternativa, proponemos una estrategia de compensación emocional como un paso de postprocesamiento aplicado a las incrustaciones de locutores anonimizados. Esto oculta la identidad del locutor original y reintroduce los rasgos emocionales perdidos durante la anonimización de las incrustaciones de locutores. Específicamente, modelamos el atributo de emoción utilizando máquinas de vectores de soporte para aprender límites separados para cada emoción. Durante la inferencia, la incrustación de locutor original se procesa de dos maneras: uno, mediante un indicador de emoción para predecir la emoción y seleccionar con precisión la SVM coincidente con la emoción; y dos, mediante un anonimizador de locutores para ocultar las características del locutor. La incrustación de locutor anonimizado se modifica luego a lo largo del límite SVM correspondiente hacia una dirección emocional mejorada para preservar las señales emocionales. Se espera que las estrategias propuestas también sean útiles para adaptar un sistema general de anonimización de locutores basado en el desentrelazado para preservar otros atributos paralingüísticos objetivo, con potencial para una variedad de tareas posteriores.
English
A general disentanglement-based speaker anonymization system typically
separates speech into content, speaker, and prosody features using individual
encoders. This paper explores how to adapt such a system when a new speech
attribute, for example, emotion, needs to be preserved to a greater extent.
While existing systems are good at anonymizing speaker embeddings, they are not
designed to preserve emotion. Two strategies for this are examined. First, we
show that integrating emotion embeddings from a pre-trained emotion encoder can
help preserve emotional cues, even though this approach slightly compromises
privacy protection. Alternatively, we propose an emotion compensation strategy
as a post-processing step applied to anonymized speaker embeddings. This
conceals the original speaker's identity and reintroduces the emotional traits
lost during speaker embedding anonymization. Specifically, we model the emotion
attribute using support vector machines to learn separate boundaries for each
emotion. During inference, the original speaker embedding is processed in two
ways: one, by an emotion indicator to predict emotion and select the
emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal
speaker characteristics. The anonymized speaker embedding is then modified
along the corresponding SVM boundary towards an enhanced emotional direction to
save the emotional cues. The proposed strategies are also expected to be useful
for adapting a general disentanglement-based speaker anonymization system to
preserve other target paralinguistic attributes, with potential for a range of
downstream tasks.Summary
AI-Generated Summary