Идентичность говорящего в невербальных вокализациях: условная дистилляция и подход смеси экспертов

Аннотация

По мере того, как системы экспрессивного синтеза речи из текста (TTS) и преобразования голоса (VC) все чаще генерируют невербальные вокализации (NVVs) для повышения естественности, надежная верификация диктора (SV) становится необходимой для объективной оценки согласованности идентичности как в вербальных, так и в невербальных сегментах. Однако современные системы SV плохо обобщаются на NVVs, а дообучение на данных NVVs вызывает катастрофическое забывание речевых характеристик. Мы представляем первое систематическое исследование, охватывающее 10 типов NVVs, и предлагаем архитектуру, объединяющую замороженные самоконтролируемые признаки Data2Vec с ECAPA-TDNN, дополненную модулем смеси экспертов (MoE) с обученной маршрутизацией с учетом домена. Условный дистилляционный лосс на речевых входах, получаемый от предобученного учителя, сохраняет точность верификации «речь-речь», а контрастивный лосс устраняет разрыв между доменами речи и NVVs. Наш метод снижает показатель EER для пары «речь-NVVs» с 38,93% до 22,66% по сравнению с предобученным базовым уровнем, а также улучшает EER для речи с 13,17% до 9,24% за счет дистилляции.

English

As expressive text-to-speech (TTS) and voice conversion (VC) systems increasingly generate non-verbal vocalizations (NVVs) to enhance naturalness, reliable speaker verification (SV) becomes essential to objectively assess identity consistency across both verbal and non-verbal segments. Yet current SV systems generalize poorly to NVVs, and fine-tuning on NVV data causes catastrophic forgetting of speech performance. We present the first systematic study across 10 NVV types and propose a framework combining frozen Data2Vec self-supervised features with ECAPA-TDNN, enhanced by a Mixture of Experts (MoE) module with learned domain-aware routing. A conditional distillation loss on speech inputs via a pretrained teacher retains speech-to-speech accuracy, while a contrastive loss bridges the speech-NVV domain gap. Our method reduces speech-NVV EER from 38.93% to 22.66% over a pretrained baseline, and improves speech EER from 13.17% to 9.24% via distillation.