ChatPaper.aiChatPaper

Adaptando a Anonimização de Orador Baseada em Desemaranhamento Geral para uma Preservação Aprimorada de Emoções

Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

August 12, 2024
Autores: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI

Resumo

Um sistema geral de anonimização de locutor baseado em desemaranhamento normalmente separa a fala em conteúdo, locutor e características de prosódia usando codificadores individuais. Este artigo explora como adaptar tal sistema quando um novo atributo da fala, por exemplo, emoção, precisa ser preservado em maior grau. Enquanto os sistemas existentes são bons em anonimizar as incrustações do locutor, eles não são projetados para preservar a emoção. Duas estratégias para isso são examinadas. Primeiramente, demonstramos que a integração de incrustações emocionais de um codificador de emoção pré-treinado pode ajudar a preservar pistas emocionais, embora essa abordagem comprometa ligeiramente a proteção da privacidade. Alternativamente, propomos uma estratégia de compensação emocional como um passo de pós-processamento aplicado às incrustações de locutor anonimizadas. Isso oculta a identidade do locutor original e reintroduz os traços emocionais perdidos durante a anonimização da incrustação do locutor. Especificamente, modelamos o atributo de emoção usando máquinas de vetores de suporte para aprender limites separados para cada emoção. Durante a inferência, a incrustação do locutor original é processada de duas maneiras: uma, por um indicador de emoção para prever a emoção e selecionar com precisão o SVM correspondente à emoção; e duas, por um anonimizador de locutor para ocultar as características do locutor. A incrustação de locutor anonimizada é então modificada ao longo do limite SVM correspondente em direção aprimorada emocional para preservar as pistas emocionais. As estratégias propostas também são esperadas para serem úteis para adaptar um sistema geral de anonimização de locutor baseado em desemaranhamento para preservar outros atributos paralinguísticos-alvo, com potencial para uma variedade de tarefas subsequentes.
English
A general disentanglement-based speaker anonymization system typically separates speech into content, speaker, and prosody features using individual encoders. This paper explores how to adapt such a system when a new speech attribute, for example, emotion, needs to be preserved to a greater extent. While existing systems are good at anonymizing speaker embeddings, they are not designed to preserve emotion. Two strategies for this are examined. First, we show that integrating emotion embeddings from a pre-trained emotion encoder can help preserve emotional cues, even though this approach slightly compromises privacy protection. Alternatively, we propose an emotion compensation strategy as a post-processing step applied to anonymized speaker embeddings. This conceals the original speaker's identity and reintroduces the emotional traits lost during speaker embedding anonymization. Specifically, we model the emotion attribute using support vector machines to learn separate boundaries for each emotion. During inference, the original speaker embedding is processed in two ways: one, by an emotion indicator to predict emotion and select the emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal speaker characteristics. The anonymized speaker embedding is then modified along the corresponding SVM boundary towards an enhanced emotional direction to save the emotional cues. The proposed strategies are also expected to be useful for adapting a general disentanglement-based speaker anonymization system to preserve other target paralinguistic attributes, with potential for a range of downstream tasks.

Summary

AI-Generated Summary

PDF61November 28, 2024