Sprekeridentiteit in niet-verbale vocalisaties: conditionele distillatie en de 'Mixture of Experts'-benadering

Samenvatting

Naarmate expressieve tekst-naar-spraak (TTS) en stemconversie (VC)-systemen steeds vaker non-verbale vocalisaties (NVVs) genereren om de natuurlijkheid te verbeteren, wordt betrouwbare sprekerverificatie (SV) essentieel om de consistentie van identiteit objectief te beoordelen over zowel verbale als non-verbale segmenten. Toch generaliseren huidige SV-systemen slecht naar NVVs, en leidt finetunen op NVV-data tot catastrofaal vergeten van spraakprestaties. Wij presenteren de eerste systematische studie over 10 NVV-types en stellen een raamwerk voor dat bevroren Data2Vec-zelfgecontroleerde kenmerken combineert met ECAPA-TDNN, verbeterd door een Mixture of Experts (MoE)-module met aangeleerde domeinbewuste routering. Een conditioneel distillatieverlies op spraakinvoer via een voorgetrainde leraar behoudt de spraak-tot-spraaknauwkeurigheid, terwijl een contrastief verlies de kloof tussen het spraak- en NVV-domein overbrugt. Onze methode reduceert de spraak-NVV EER van 38,93% naar 22,66% ten opzichte van een voorgetrainde basislijn, en verbetert de spraak-EER van 13,17% naar 9,24% via distillatie.

English

As expressive text-to-speech (TTS) and voice conversion (VC) systems increasingly generate non-verbal vocalizations (NVVs) to enhance naturalness, reliable speaker verification (SV) becomes essential to objectively assess identity consistency across both verbal and non-verbal segments. Yet current SV systems generalize poorly to NVVs, and fine-tuning on NVV data causes catastrophic forgetting of speech performance. We present the first systematic study across 10 NVV types and propose a framework combining frozen Data2Vec self-supervised features with ECAPA-TDNN, enhanced by a Mixture of Experts (MoE) module with learned domain-aware routing. A conditional distillation loss on speech inputs via a pretrained teacher retains speech-to-speech accuracy, while a contrastive loss bridges the speech-NVV domain gap. Our method reduces speech-NVV EER from 38.93% to 22.66% over a pretrained baseline, and improves speech EER from 13.17% to 9.24% via distillation.