Verbesserung der Robustheit der Sprecheridentifikation mit synthetischen emotionalen Äußerungen
Improving speaker verification robustness with synthetic emotional utterances
November 30, 2024
Autoren: Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke
cs.AI
Zusammenfassung
Ein Sprecher-Verifikationssystem (SV) bietet einen Authentifizierungsdienst, der darauf ausgelegt ist zu bestätigen, ob eine bestimmte Sprachprobe von einem bestimmten Sprecher stammt. Diese Technologie hat den Weg für verschiedene personalisierte Anwendungen geebnet, die individuellen Vorlieben gerecht werden. Eine bemerkenswerte Herausforderung, der sich SV-Systeme gegenübersehen, ist ihre Fähigkeit, konsistent über eine Reihe von emotionalen Spektren hinweg zu agieren. Die meisten bestehenden Modelle weisen im Umgang mit emotionalen Äußerungen im Vergleich zu neutralen Äußerungen hohe Fehlerquoten auf. Folglich führt dieses Phänomen oft dazu, dass interessante Sprachanteile übersehen werden. Dieses Problem resultiert hauptsächlich aus der begrenzten Verfügbarkeit von markierten emotionalen Sprachdaten, die die Entwicklung robuster Sprecherrepräsentationen behindert, die verschiedene emotionale Zustände umfassen.
Um diesem Anliegen zu begegnen, schlagen wir einen neuartigen Ansatz vor, der das CycleGAN-Framework als Methode zur Datenanreicherung nutzt. Diese Technik synthetisiert emotionale Sprachsegmente für jeden spezifischen Sprecher, während sie die einzigartige stimmliche Identität bewahrt. Unsere experimentellen Ergebnisse unterstreichen die Wirksamkeit der Integration synthetischer emotionaler Daten in den Schulungsprozess. Die mit diesem erweiterten Datensatz trainierten Modelle übertreffen konsistent die Basislinienmodelle bei der Aufgabe, Sprecher in emotionalen Sprachszenarien zu verifizieren, wobei die Fehlerquote um bis zu 3,64% relativ reduziert wird.
English
A speaker verification (SV) system offers an authentication service designed
to confirm whether a given speech sample originates from a specific speaker.
This technology has paved the way for various personalized applications that
cater to individual preferences. A noteworthy challenge faced by SV systems is
their ability to perform consistently across a range of emotional spectra. Most
existing models exhibit high error rates when dealing with emotional utterances
compared to neutral ones. Consequently, this phenomenon often leads to missing
out on speech of interest. This issue primarily stems from the limited
availability of labeled emotional speech data, impeding the development of
robust speaker representations that encompass diverse emotional states.
To address this concern, we propose a novel approach employing the CycleGAN
framework to serve as a data augmentation method. This technique synthesizes
emotional speech segments for each specific speaker while preserving the unique
vocal identity. Our experimental findings underscore the effectiveness of
incorporating synthetic emotional data into the training process. The models
trained using this augmented dataset consistently outperform the baseline
models on the task of verifying speakers in emotional speech scenarios,
reducing equal error rate by as much as 3.64% relative.Summary
AI-Generated Summary