ChatPaper.aiChatPaper

合成感情発話による話者検証の頑健性向上

Improving speaker verification robustness with synthetic emotional utterances

November 30, 2024
著者: Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke
cs.AI

要旨

話者認証(SV)システムは、特定の話者からの音声サンプルが発信元であるかを確認するよう設計された認証サービスを提供します。この技術は、個々の好みに対応するさまざまなパーソナライズされたアプリケーションの道を開いています。SVシステムが直面する注目すべき課題の1つは、さまざまな感情スペクトルにわたって一貫して機能する能力です。既存のほとんどのモデルは、中立的な発話と比較して感情的な発話を扱う際に高いエラー率を示しています。その結果、しばしば興味のある音声を見逃すことがあります。この問題は、多様な感情状態を包括する堅牢な話者表現の開発を妨げる、ラベル付き感情音声データの限られた利用可能性から主に生じています。 この懸念に対処するため、私たちはCycleGANフレームワークをデータ拡張手法として使用する新しいアプローチを提案します。この技術は、特定の話者ごとに感情的な音声セグメントを合成し、独自の声の特性を保持します。私たちの実験結果は、合成された感情的なデータをトレーニングプロセスに取り込む効果を強調しています。この拡張されたデータセットを使用してトレーニングされたモデルは、感情的な音声シナリオで話者を検証するタスクにおいて、基準モデルを一貫して上回り、等しいエラー率を最大3.64%削減しています。
English
A speaker verification (SV) system offers an authentication service designed to confirm whether a given speech sample originates from a specific speaker. This technology has paved the way for various personalized applications that cater to individual preferences. A noteworthy challenge faced by SV systems is their ability to perform consistently across a range of emotional spectra. Most existing models exhibit high error rates when dealing with emotional utterances compared to neutral ones. Consequently, this phenomenon often leads to missing out on speech of interest. This issue primarily stems from the limited availability of labeled emotional speech data, impeding the development of robust speaker representations that encompass diverse emotional states. To address this concern, we propose a novel approach employing the CycleGAN framework to serve as a data augmentation method. This technique synthesizes emotional speech segments for each specific speaker while preserving the unique vocal identity. Our experimental findings underscore the effectiveness of incorporating synthetic emotional data into the training process. The models trained using this augmented dataset consistently outperform the baseline models on the task of verifying speakers in emotional speech scenarios, reducing equal error rate by as much as 3.64% relative.

Summary

AI-Generated Summary

PDF22December 3, 2024