Melhorando a robustez da verificação de locutor com enunciados emocionais sintéticos

Resumo

Um sistema de verificação de locutor (SV) oferece um serviço de autenticação projetado para confirmar se uma determinada amostra de fala se origina de um locutor específico. Essa tecnologia abriu caminho para várias aplicações personalizadas que atendem às preferências individuais. Um desafio notável enfrentado pelos sistemas SV é a capacidade de manter um desempenho consistente em uma variedade de espectros emocionais. A maioria dos modelos existentes apresenta altas taxas de erro ao lidar com enunciados emocionais em comparação com os neutros. Consequentemente, esse fenômeno frequentemente resulta na perda de fala de interesse. Esse problema decorre principalmente da disponibilidade limitada de dados de fala emocional rotulados, dificultando o desenvolvimento de representações robustas de locutores que abranjam diversos estados emocionais. Para abordar essa preocupação, propomos uma abordagem inovadora que utiliza o framework CycleGAN como método de aumento de dados. Essa técnica sintetiza segmentos de fala emocional para cada locutor específico, preservando a identidade vocal única. Nossos resultados experimentais destacam a eficácia da incorporação de dados emocionais sintéticos no processo de treinamento. Os modelos treinados usando esse conjunto de dados aumentado superam consistentemente os modelos de referência na tarefa de verificar locutores em cenários de fala emocional, reduzindo a taxa de erro igual em até 3,64% em relação.

English

A speaker verification (SV) system offers an authentication service designed to confirm whether a given speech sample originates from a specific speaker. This technology has paved the way for various personalized applications that cater to individual preferences. A noteworthy challenge faced by SV systems is their ability to perform consistently across a range of emotional spectra. Most existing models exhibit high error rates when dealing with emotional utterances compared to neutral ones. Consequently, this phenomenon often leads to missing out on speech of interest. This issue primarily stems from the limited availability of labeled emotional speech data, impeding the development of robust speaker representations that encompass diverse emotional states. To address this concern, we propose a novel approach employing the CycleGAN framework to serve as a data augmentation method. This technique synthesizes emotional speech segments for each specific speaker while preserving the unique vocal identity. Our experimental findings underscore the effectiveness of incorporating synthetic emotional data into the training process. The models trained using this augmented dataset consistently outperform the baseline models on the task of verifying speakers in emotional speech scenarios, reducing equal error rate by as much as 3.64% relative.

Melhorando a robustez da verificação de locutor com enunciados emocionais sintéticos

Improving speaker verification robustness with synthetic emotional utterances

Resumo

Support