Melhorando a robustez da verificação de locutor com enunciados emocionais sintéticos
Improving speaker verification robustness with synthetic emotional utterances
November 30, 2024
Autores: Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke
cs.AI
Resumo
Um sistema de verificação de locutor (SV) oferece um serviço de autenticação projetado para confirmar se uma determinada amostra de fala se origina de um locutor específico. Essa tecnologia abriu caminho para várias aplicações personalizadas que atendem às preferências individuais. Um desafio notável enfrentado pelos sistemas SV é a capacidade de manter um desempenho consistente em uma variedade de espectros emocionais. A maioria dos modelos existentes apresenta altas taxas de erro ao lidar com enunciados emocionais em comparação com os neutros. Consequentemente, esse fenômeno frequentemente resulta na perda de fala de interesse. Esse problema decorre principalmente da disponibilidade limitada de dados de fala emocional rotulados, dificultando o desenvolvimento de representações robustas de locutores que abranjam diversos estados emocionais.
Para abordar essa preocupação, propomos uma abordagem inovadora que utiliza o framework CycleGAN como método de aumento de dados. Essa técnica sintetiza segmentos de fala emocional para cada locutor específico, preservando a identidade vocal única. Nossos resultados experimentais destacam a eficácia da incorporação de dados emocionais sintéticos no processo de treinamento. Os modelos treinados usando esse conjunto de dados aumentado superam consistentemente os modelos de referência na tarefa de verificar locutores em cenários de fala emocional, reduzindo a taxa de erro igual em até 3,64% em relação.
English
A speaker verification (SV) system offers an authentication service designed
to confirm whether a given speech sample originates from a specific speaker.
This technology has paved the way for various personalized applications that
cater to individual preferences. A noteworthy challenge faced by SV systems is
their ability to perform consistently across a range of emotional spectra. Most
existing models exhibit high error rates when dealing with emotional utterances
compared to neutral ones. Consequently, this phenomenon often leads to missing
out on speech of interest. This issue primarily stems from the limited
availability of labeled emotional speech data, impeding the development of
robust speaker representations that encompass diverse emotional states.
To address this concern, we propose a novel approach employing the CycleGAN
framework to serve as a data augmentation method. This technique synthesizes
emotional speech segments for each specific speaker while preserving the unique
vocal identity. Our experimental findings underscore the effectiveness of
incorporating synthetic emotional data into the training process. The models
trained using this augmented dataset consistently outperform the baseline
models on the task of verifying speakers in emotional speech scenarios,
reducing equal error rate by as much as 3.64% relative.Summary
AI-Generated Summary