SwanVoice: Síntese de Voz Expressiva de Longa Duração com Zero-Shot para Monólogo e Diálogo

Resumo

Síntese de texto para fala (TTS) zero-shot tem melhorado substancialmente para síntese de um único locutor, mas o diálogo expressivo de múltiplos locutores em formato longo continua sendo difícil. Uma solução comum é sintetizar cada turno com um modelo TTS de monólogo e costurar as saídas. Isso adiciona custo de inferência e frequentemente quebra a consistência acústica, a coerência conversacional e a continuidade afetiva entre os turnos. Sistemas recentes de TTS para diálogo começaram a abordar esse cenário, mas ainda lutam para manter simultaneamente coerência expressiva, alternância controlável de locutores e qualidade de monólogo. Apresentamos SwanData-Speech e SwanVoice. SwanData-Speech constrói corpora de monólogo e diálogo a partir de áudio do mundo real, usando o Swan Forced Aligner para alinhamento em nível de palavra consciente de pausas e o RobustMegaTTS3 para casos com pronúncia difícil. Construído sobre esses dados, o SwanVoice é um modelo TTS zero-shot para 1–4 locutores, combinando um VAE de 25 Hz, condicionamento a texto bruto com símbolos conscientes de pausas e substituição por pinyin, e um DiT de correspondência de fluxo com condicionamento de turno de locutor. O treinamento começa com fala de monólogo, passa por dados mistos e de diálogo real, e então utiliza pós-treinamento DiffusionNFT com recompensas em nível de fonema e similaridade de locutor. No SwanBench-Speech, o SwanVoice obtém pontuações de riqueza e hierarquia mais altas do que todas as linhas de base de código aberto avaliadas, tanto em cenários de monólogo quanto de diálogo, embora a precisão do conteúdo permaneça como a principal limitação. Demonstrações de áudio estão disponíveis em https://swanaigc.github.io//#swanvoice.

English

Zero-shot text-to-speech (TTS) has improved substantially for single-speaker synthesis, yet expressive long-form multi-speaker dialogue remains difficult. A common workaround is to synthesize each turn with a monologue TTS model and stitch the outputs together. This adds inference cost and often breaks acoustic consistency, conversational coherence, and affective continuity across turns. Recent dialogue TTS systems have begun to address this setting, but they still struggle to keep expressive coherence, controllable speaker switching, and monologue quality at the same time. We present SwanData-Speech and SwanVoice. SwanData-Speech builds monologue and dialogue corpora from in-the-wild audio, using Swan Forced Aligner for pause-aware word-level alignment and RobustMegaTTS3 for pronunciation-hard cases. Built on these data, SwanVoice is a zero-shot TTS model for 1--4 speakers, combining a 25 Hz VAE, raw-text conditioning with pause-aware symbols and pinyin substitution, and a flow-matching DiT with speaker-turn conditioning. Training starts from monologue speech, moves through mixed and real dialogue data, and then uses DiffusionNFT post-training with phone-level and speaker-similarity rewards. On SwanBench-Speech, SwanVoice obtains higher richness and hierarchy scores than all evaluated open-source baselines in both monologue and dialogue settings, while content accuracy remains the main limitation. Audio demos are available at https://swanaigc.github.io//#swanvoice.