ChatPaper.aiChatPaper

Seed-TTS: 高品質で汎用性の高い音声生成モデルファミリー

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

June 4, 2024
著者: Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
cs.AI

要旨

私たちは、人間の音声とほとんど区別がつかない音声を生成可能な大規模自己回帰型テキスト音声合成(TTS)モデル群であるSeed-TTSを紹介します。Seed-TTSは音声生成の基盤モデルとして機能し、文脈内学習において優れた性能を発揮し、客観的および主観的評価の両方で、話者類似性と自然さにおいて人間の音声に匹敵する結果を達成します。ファインチューニングを行うことで、これらの指標においてさらに高い主観的スコアを実現します。Seed-TTSは、感情などのさまざまな音声属性に対する優れた制御性を提供し、実世界の話者に対して非常に表現力豊かで多様な音声を生成することが可能です。さらに、音声の因数分解のための自己蒸留法と、モデルの堅牢性、話者類似性、制御性を向上させるための強化学習アプローチを提案します。また、完全に拡散ベースのアーキテクチャを採用した非自己回帰(NAR)型のSeed-TTSモデルであるSeed-TTS_DiTを紹介します。従来のNARベースのTTSシステムとは異なり、Seed-TTS_DiTは事前に推定された音素の持続時間に依存せず、エンドツーエンド処理による音声生成を行います。このバリアントが言語モデルベースのバリアントと同等の性能を達成し、音声編集においてその有効性を示すことを実証します。デモ音声はhttps://bytedancespeech.github.io/seedtts_tech_reportでご確認いただけます。
English
We introduce Seed-TTS, a family of large-scale autoregressive text-to-speech (TTS) models capable of generating speech that is virtually indistinguishable from human speech. Seed-TTS serves as a foundation model for speech generation and excels in speech in-context learning, achieving performance in speaker similarity and naturalness that matches ground truth human speech in both objective and subjective evaluations. With fine-tuning, we achieve even higher subjective scores across these metrics. Seed-TTS offers superior controllability over various speech attributes such as emotion and is capable of generating highly expressive and diverse speech for speakers in the wild. Furthermore, we propose a self-distillation method for speech factorization, as well as a reinforcement learning approach to enhance model robustness, speaker similarity, and controllability. We additionally present a non-autoregressive (NAR) variant of the Seed-TTS model, named Seed-TTS_DiT, which utilizes a fully diffusion-based architecture. Unlike previous NAR-based TTS systems, Seed-TTS_DiT does not depend on pre-estimated phoneme durations and performs speech generation through end-to-end processing. We demonstrate that this variant achieves comparable performance to the language model-based variant and showcase its effectiveness in speech editing. We encourage readers to listen to demos at https://bytedancespeech.github.io/seedtts_tech_report.

Summary

AI-Generated Summary

PDF372December 12, 2024