Адаптация общей методики анонимизации диктора на основе дезентанглирования для улучшения сохранения эмоций
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation
August 12, 2024
Авторы: Xiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
cs.AI
Аннотация
Обычная система анонимизации диктора на основе общего декодирования обычно разделяет речь на содержательные, дикторские и просодические особенности с использованием отдельных кодировщиков. В данной статье исследуется, как адаптировать такую систему, когда необходимо более полно сохранить новый атрибут речи, например, эмоцию. Хотя существующие системы хорошо анонимизируют вложения диктора, они не предназначены для сохранения эмоции. Рассматриваются две стратегии. Во-первых, показано, что интеграция вложений эмоции из предварительно обученного эмоционального кодировщика может помочь сохранить эмоциональные подсказки, хотя такой подход немного ущемляет защиту конфиденциальности. В качестве альтернативы мы предлагаем стратегию компенсации эмоции в качестве последнего шага постобработки, применяемую к анонимизированным вложениям диктора. Это скрывает исходную личность диктора и вновь вводит потерянные во время анонимизации вложений диктора эмоциональные черты. Конкретно, мы моделируем атрибут эмоции с использованием метода опорных векторов для изучения отдельных границ для каждой эмоции. Во время вывода исходное вложение диктора обрабатывается двумя способами: сначала - с помощью индикатора эмоции для прогнозирования эмоции и точного выбора соответствующего метода опорных векторов для эмоции; и вторым - с помощью анонимизатора диктора для скрытия характеристик диктора. Затем анонимизированное вложение диктора модифицируется вдоль соответствующей границы метода опорных векторов в направлении улучшенной эмоциональной составляющей для сохранения эмоциональных подсказок. Предложенные стратегии также ожидается, что будут полезны для адаптации общей системы анонимизации диктора на основе декодирования для сохранения других целевых парапсихологических атрибутов, с потенциалом для ряда последующих задач.
English
A general disentanglement-based speaker anonymization system typically
separates speech into content, speaker, and prosody features using individual
encoders. This paper explores how to adapt such a system when a new speech
attribute, for example, emotion, needs to be preserved to a greater extent.
While existing systems are good at anonymizing speaker embeddings, they are not
designed to preserve emotion. Two strategies for this are examined. First, we
show that integrating emotion embeddings from a pre-trained emotion encoder can
help preserve emotional cues, even though this approach slightly compromises
privacy protection. Alternatively, we propose an emotion compensation strategy
as a post-processing step applied to anonymized speaker embeddings. This
conceals the original speaker's identity and reintroduces the emotional traits
lost during speaker embedding anonymization. Specifically, we model the emotion
attribute using support vector machines to learn separate boundaries for each
emotion. During inference, the original speaker embedding is processed in two
ways: one, by an emotion indicator to predict emotion and select the
emotion-matched SVM accurately; and two, by a speaker anonymizer to conceal
speaker characteristics. The anonymized speaker embedding is then modified
along the corresponding SVM boundary towards an enhanced emotional direction to
save the emotional cues. The proposed strategies are also expected to be useful
for adapting a general disentanglement-based speaker anonymization system to
preserve other target paralinguistic attributes, with potential for a range of
downstream tasks.Summary
AI-Generated Summary