ChatPaper.aiChatPaper

EmoKnob: 細かい感情制御を用いた音声クローニングの向上

EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control

October 1, 2024
著者: Haozhe Chen, Run Chen, Julia Hirschberg
cs.AI

要旨

最近のテキスト・ツー・スピーチ(TTS)技術の進歩により、自然で表現豊かな音声が生成される一方、ユーザーが感情を選択し強度を制御するオプションが欠如しています。私たちはEmoKnobを提案します。これは、任意の感情の少数のデモンストレーションサンプルを使用して音声合成における細かい感情制御を可能にするフレームワークです。私たちのフレームワークは、最近の基盤となる音声クローニングモデルの進歩によって実現された表現豊かな話者表現空間を活用しています。感情制御フレームワークの少数のショット能力に基づき、私たちは感情制御を開放的なテキストで記述された感情に適用する2つの方法を提案し、微妙な感情の多様な配列を制御する直感的なインターフェースを実現します。より体系的な感情音声合成分野を促進するために、感情制御フレームワークの忠実度と認識性を厳密に評価するための一連の評価メトリクスを導入します。客観的および主観的評価を通じて、私たちの感情制御フレームワークが効果的に感情を音声に埋め込み、商用TTSサービスの感情表現を上回ることを示しています。
English
While recent advances in Text-to-Speech (TTS) technology produce natural and expressive speech, they lack the option for users to select emotion and control intensity. We propose EmoKnob, a framework that allows fine-grained emotion control in speech synthesis with few-shot demonstrative samples of arbitrary emotion. Our framework leverages the expressive speaker representation space made possible by recent advances in foundation voice cloning models. Based on the few-shot capability of our emotion control framework, we propose two methods to apply emotion control on emotions described by open-ended text, enabling an intuitive interface for controlling a diverse array of nuanced emotions. To facilitate a more systematic emotional speech synthesis field, we introduce a set of evaluation metrics designed to rigorously assess the faithfulness and recognizability of emotion control frameworks. Through objective and subjective evaluations, we show that our emotion control framework effectively embeds emotions into speech and surpasses emotion expressiveness of commercial TTS services.

Summary

AI-Generated Summary

PDF72November 16, 2024