ChatPaper.aiChatPaper

フローマッチングに基づくゼロショットテキスト音声合成で自由に笑わせる

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

February 12, 2024
著者: Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng
cs.AI

要旨

笑いは、人間の音声表現において最も自然で豊かな要素の一つであり、感情や社会的な合図、ユーモアを伝える重要な役割を果たします。しかし、ほとんどのテキスト読み上げ(TTS)システムは、現実的で適切な笑い声を生成する能力を欠いており、その応用範囲とユーザー体験を制限しています。これまでにも自然な笑い声を生成する試みはありましたが、生成される笑いのタイミングや多様性を制御する点で不十分でした。本研究では、ELaTEを提案します。これは、短い音声プロンプトに基づいて任意の話者の自然な笑い声を生成し、笑いのタイミングと表現を精密に制御できるゼロショットTTSです。具体的には、ELaTEは、音声特性を模倣するための音声プロンプト、生成される音声の内容を示すテキストプロンプト、そして笑いの表現を制御する入力(笑いの開始・終了時間、または模倣すべき笑いを含む追加の音声プロンプト)を処理します。我々は、条件付きフローマッチングに基づくゼロショットTTSを基盤としてモデルを開発し、笑い検出器からのフレームレベル表現を追加の条件付けとしてファインチューニングを行いました。小規模な笑い条件付きデータと大規模な事前学習データを混合するシンプルな手法により、事前学習済みのゼロショットTTSモデルが、その品質を損なうことなく、精密な制御性を備えた自然な笑い声を生成できることを実証しました。評価を通じて、ELaTEが従来のモデルと比較して、はるかに高い品質と制御性を備えた笑い声を生成できることを示します。デモサンプルはhttps://aka.ms/elate/をご覧ください。
English
Laughter is one of the most expressive and natural aspects of human speech, conveying emotions, social cues, and humor. However, most text-to-speech (TTS) systems lack the ability to produce realistic and appropriate laughter sounds, limiting their applications and user experience. While there have been prior works to generate natural laughter, they fell short in terms of controlling the timing and variety of the laughter to be generated. In this work, we propose ELaTE, a zero-shot TTS that can generate natural laughing speech of any speaker based on a short audio prompt with precise control of laughter timing and expression. Specifically, ELaTE works on the audio prompt to mimic the voice characteristic, the text prompt to indicate the contents of the generated speech, and the input to control the laughter expression, which can be either the start and end times of laughter, or the additional audio prompt that contains laughter to be mimicked. We develop our model based on the foundation of conditional flow-matching-based zero-shot TTS, and fine-tune it with frame-level representation from a laughter detector as additional conditioning. With a simple scheme to mix small-scale laughter-conditioned data with large-scale pre-training data, we demonstrate that a pre-trained zero-shot TTS model can be readily fine-tuned to generate natural laughter with precise controllability, without losing any quality of the pre-trained zero-shot TTS model. Through the evaluations, we show that ELaTE can generate laughing speech with significantly higher quality and controllability compared to conventional models. See https://aka.ms/elate/ for demo samples.
PDF161December 15, 2024