ChatPaper.aiChatPaper

SwanVoice: モノローグとダイアログの両方に対応した表現力豊かな長文ゼロショット音声合成

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

May 29, 2026
著者: Ruiqi Li, Yu Zhang, Changhao Pan, Ke Lei, Xiang Yin, Cheng Yang
cs.AI

要旨

ゼロショット音声合成(TTS)は単一話者合成において大幅に改善されたが、表現力豊かな長編マルチスピーカー対話は依然として困難である。一般的な回避策は、各発話をモノローグTTSモデルで合成し、出力を連結することである。これにより推論コストが増加し、発話間の音響的一貫性、会話の結束性、感情の連続性が損なわれることが多い。近年の対話TTSシステムはこの設定に対応し始めているが、表現の一貫性、制御可能な話者切り替え、モノローグ品質を同時に維持することには依然として苦戦している。本稿では、SwanData-SpeechとSwanVoiceを提案する。SwanData-Speechは、実環境の音声からモノローグおよび対話コーパスを構築し、ポーズ認識の単語レベルアライメントにSwan Forced Alignerを、発音困難ケースにRobustMegaTTS3を使用する。これらのデータに基づき、SwanVoiceは1~4話者向けのゼロショットTTSモデルであり、25 HzのVAE、ポーズ認識記号とピンイン置換を用いた生テキストコンディショニング、話者ターンコンディショニングを備えたフローマッチングDiTを組み合わせる。トレーニングはモノローグ音声から開始し、混合データおよび実対話データを経て、その後、音素レベルおよび話者類似度報酬を用いたDiffusionNFT後訓練を適用する。SwanBench-Speechにおいて、SwanVoiceはモノローグおよび対話設定の両方で評価されたすべてのオープンソースベースラインよりも高い豊かさと階層性スコアを達成したが、コンテンツ精度が依然として主な制限である。音声デモはhttps://swanaigc.github.io//#swanvoiceで提供されている。
English
Zero-shot text-to-speech (TTS) has improved substantially for single-speaker synthesis, yet expressive long-form multi-speaker dialogue remains difficult. A common workaround is to synthesize each turn with a monologue TTS model and stitch the outputs together. This adds inference cost and often breaks acoustic consistency, conversational coherence, and affective continuity across turns. Recent dialogue TTS systems have begun to address this setting, but they still struggle to keep expressive coherence, controllable speaker switching, and monologue quality at the same time. We present SwanData-Speech and SwanVoice. SwanData-Speech builds monologue and dialogue corpora from in-the-wild audio, using Swan Forced Aligner for pause-aware word-level alignment and RobustMegaTTS3 for pronunciation-hard cases. Built on these data, SwanVoice is a zero-shot TTS model for 1--4 speakers, combining a 25 Hz VAE, raw-text conditioning with pause-aware symbols and pinyin substitution, and a flow-matching DiT with speaker-turn conditioning. Training starts from monologue speech, moves through mixed and real dialogue data, and then uses DiffusionNFT post-training with phone-level and speaker-similarity rewards. On SwanBench-Speech, SwanVoice obtains higher richness and hierarchy scores than all evaluated open-source baselines in both monologue and dialogue settings, while content accuracy remains the main limitation. Audio demos are available at https://swanaigc.github.io//#swanvoice.