Améliorer la robustesse de la vérification de locuteur avec des énoncés émotionnels synthétiques
Improving speaker verification robustness with synthetic emotional utterances
November 30, 2024
Auteurs: Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke
cs.AI
Résumé
Un système de vérification de locuteur (SV) offre un service d'authentification conçu pour confirmer si un échantillon de parole donné provient d'un locuteur spécifique. Cette technologie a ouvert la voie à diverses applications personnalisées qui répondent aux préférences individuelles. Un défi notable auquel sont confrontés les systèmes SV est leur capacité à fonctionner de manière cohérente sur une gamme de spectres émotionnels. La plupart des modèles existants présentent des taux d'erreur élevés lorsqu'ils traitent des énoncés émotionnels par rapport à des énoncés neutres. Par conséquent, ce phénomène conduit souvent à passer à côté de discours d'intérêt. Ce problème découle principalement de la disponibilité limitée de données vocales émotionnelles étiquetées, entravant le développement de représentations robustes des locuteurs qui englobent divers états émotionnels.
Pour répondre à cette préoccupation, nous proposons une approche novatrice utilisant le cadre CycleGAN comme méthode d'augmentation de données. Cette technique synthétise des segments de parole émotionnelle pour chaque locuteur spécifique tout en préservant l'identité vocale unique. Nos résultats expérimentaux soulignent l'efficacité de l'incorporation de données émotionnelles synthétiques dans le processus d'entraînement. Les modèles entraînés à l'aide de cet ensemble de données augmenté surpassent de manière cohérente les modèles de référence dans la tâche de vérification des locuteurs dans des scénarios de discours émotionnels, réduisant le taux d'erreur égal jusqu'à 3,64% en relatif.
English
A speaker verification (SV) system offers an authentication service designed
to confirm whether a given speech sample originates from a specific speaker.
This technology has paved the way for various personalized applications that
cater to individual preferences. A noteworthy challenge faced by SV systems is
their ability to perform consistently across a range of emotional spectra. Most
existing models exhibit high error rates when dealing with emotional utterances
compared to neutral ones. Consequently, this phenomenon often leads to missing
out on speech of interest. This issue primarily stems from the limited
availability of labeled emotional speech data, impeding the development of
robust speaker representations that encompass diverse emotional states.
To address this concern, we propose a novel approach employing the CycleGAN
framework to serve as a data augmentation method. This technique synthesizes
emotional speech segments for each specific speaker while preserving the unique
vocal identity. Our experimental findings underscore the effectiveness of
incorporating synthetic emotional data into the training process. The models
trained using this augmented dataset consistently outperform the baseline
models on the task of verifying speakers in emotional speech scenarios,
reducing equal error rate by as much as 3.64% relative.Summary
AI-Generated Summary