ChatPaper.aiChatPaper

Verbesserung der Robustheit der Sprecheridentifikation mit synthetischen emotionalen Äußerungen

Improving speaker verification robustness with synthetic emotional utterances

November 30, 2024
Autoren: Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke
cs.AI

Zusammenfassung

Ein Sprecher-Verifikationssystem (SV) bietet einen Authentifizierungsdienst, der darauf ausgelegt ist zu bestätigen, ob eine bestimmte Sprachprobe von einem bestimmten Sprecher stammt. Diese Technologie hat den Weg für verschiedene personalisierte Anwendungen geebnet, die individuellen Vorlieben gerecht werden. Eine bemerkenswerte Herausforderung, der sich SV-Systeme gegenübersehen, ist ihre Fähigkeit, konsistent über eine Reihe von emotionalen Spektren hinweg zu agieren. Die meisten bestehenden Modelle weisen im Umgang mit emotionalen Äußerungen im Vergleich zu neutralen Äußerungen hohe Fehlerquoten auf. Folglich führt dieses Phänomen oft dazu, dass interessante Sprachanteile übersehen werden. Dieses Problem resultiert hauptsächlich aus der begrenzten Verfügbarkeit von markierten emotionalen Sprachdaten, die die Entwicklung robuster Sprecherrepräsentationen behindert, die verschiedene emotionale Zustände umfassen. Um diesem Anliegen zu begegnen, schlagen wir einen neuartigen Ansatz vor, der das CycleGAN-Framework als Methode zur Datenanreicherung nutzt. Diese Technik synthetisiert emotionale Sprachsegmente für jeden spezifischen Sprecher, während sie die einzigartige stimmliche Identität bewahrt. Unsere experimentellen Ergebnisse unterstreichen die Wirksamkeit der Integration synthetischer emotionaler Daten in den Schulungsprozess. Die mit diesem erweiterten Datensatz trainierten Modelle übertreffen konsistent die Basislinienmodelle bei der Aufgabe, Sprecher in emotionalen Sprachszenarien zu verifizieren, wobei die Fehlerquote um bis zu 3,64% relativ reduziert wird.
English
A speaker verification (SV) system offers an authentication service designed to confirm whether a given speech sample originates from a specific speaker. This technology has paved the way for various personalized applications that cater to individual preferences. A noteworthy challenge faced by SV systems is their ability to perform consistently across a range of emotional spectra. Most existing models exhibit high error rates when dealing with emotional utterances compared to neutral ones. Consequently, this phenomenon often leads to missing out on speech of interest. This issue primarily stems from the limited availability of labeled emotional speech data, impeding the development of robust speaker representations that encompass diverse emotional states. To address this concern, we propose a novel approach employing the CycleGAN framework to serve as a data augmentation method. This technique synthesizes emotional speech segments for each specific speaker while preserving the unique vocal identity. Our experimental findings underscore the effectiveness of incorporating synthetic emotional data into the training process. The models trained using this augmented dataset consistently outperform the baseline models on the task of verifying speakers in emotional speech scenarios, reducing equal error rate by as much as 3.64% relative.

Summary

AI-Generated Summary

PDF22December 3, 2024