Adaptación de la Anonimización de Hablantes Basada en la Desentrelazamiento General para una Preservación Mejorada de las Emociones.

Resumen

Un sistema general de anonimización de locutores basado en el desentrelazado típicamente separa el habla en características de contenido, locutor y prosodia utilizando codificadores individuales. Este documento explora cómo adaptar dicho sistema cuando se necesita preservar en mayor medida un nuevo atributo del habla, por ejemplo, la emoción. Si bien los sistemas existentes son buenos para anonimizar las incrustaciones de locutores, no están diseñados para preservar la emoción. Se examinan dos estrategias para esto. En primer lugar, mostramos que integrar incrustaciones de emoción de un codificador de emoción preentrenado puede ayudar a preservar las señales emocionales, aunque este enfoque compromete ligeramente la protección de la privacidad. Como alternativa, proponemos una estrategia de compensación emocional como un paso de postprocesamiento aplicado a las incrustaciones de locutores anonimizados. Esto oculta la identidad del locutor original y reintroduce los rasgos emocionales perdidos durante la anonimización de las incrustaciones de locutores. Específicamente, modelamos el atributo de emoción utilizando máquinas de vectores de soporte para aprender límites separados para cada emoción. Durante la inferencia, la incrustación de locutor original se procesa de dos maneras: uno, mediante un indicador de emoción para predecir la emoción y seleccionar con precisión la SVM coincidente con la emoción; y dos, mediante un anonimizador de locutores para ocultar las características del locutor. La incrustación de locutor anonimizado se modifica luego a lo largo del límite SVM correspondiente hacia una dirección emocional mejorada para preservar las señales emocionales. Se espera que las estrategias propuestas también sean útiles para adaptar un sistema general de anonimización de locutores basado en el desentrelazado para preservar otros atributos paralingüísticos objetivo, con potencial para una variedad de tareas posteriores.

English

A general disentanglement-based speaker anonymization system typically separates speech into content, speaker, and prosody features using individual encoders. This paper explores how to adapt such a system when a new speech attribute, for example, emotion, needs to be preserved to a greater extent. While existing systems are good at anonymizing speaker embeddings, they are not designed to preserve emotion. Two strategies for this are examined. First, we show that integrating emotion embeddings from a pre-trained emotion encoder can help preserve emotional cues, even though this approach slightly compromises privacy protection. Alternatively, we propose an emotion compensation strategy as a post-processing step applied to anonymized speaker embeddings. This conceals the original speaker's identity and reintroduces the emotional traits lost during speaker embedding anonymization. Specifically, we model the emotion attribute using support vector machines to learn separate boundaries for each emotion. During inference, the original speaker embedding is processed in two ways: one, by an emotion indicator to predict emotion and select the emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal speaker characteristics. The anonymized speaker embedding is then modified along the corresponding SVM boundary towards an enhanced emotional direction to save the emotional cues. The proposed strategies are also expected to be useful for adapting a general disentanglement-based speaker anonymization system to preserve other target paralinguistic attributes, with potential for a range of downstream tasks.

Adaptación de la Anonimización de Hablantes Basada en la Desentrelazamiento General para una Preservación Mejorada de las Emociones.

Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Resumen

Support