SwanVoice : Synthèse vocale expressive de longs énoncés en zero-shot pour le monologue et le dialogue

Résumé

La synthèse vocale zéro tir (zero-shot TTS) a considérablement progressé pour la génération d’un seul locuteur, mais la production de dialogues longs et expressifs avec plusieurs locuteurs reste difficile. Une solution de contournement courante consiste à générer chaque tour de parole avec un modèle TTS de monologue, puis à assembler les sorties. Cette approche augmente le coût d’inférence et rompt souvent la cohérence acoustique, la cohérence conversationnelle et la continuité affective entre les tours. Les systèmes récents de TTS dialogué commencent à traiter ce contexte, mais ils peinent encore à maintenir simultanément une cohérence expressive, un changement de locuteur contrôlable et une qualité de monologue. Nous présentons SwanData-Speech et SwanVoice. SwanData-Speech construit des corpus de monologue et de dialogue à partir de données audio réelles, en utilisant Swan Forced Aligner pour un alignement au niveau des mots tenant compte des pauses, et RobustMegaTTS3 pour les cas de prononciation difficiles. À partir de ces données, SwanVoice est un modèle TTS zéro tir pour 1 à 4 locuteurs, combinant un VAE à 25 Hz, un conditionnement par texte brut avec des symboles de pause et une substitution pinyin, et un DiT par appariement de flots (flow-matching DiT) avec conditionnement par tour de locuteur. L’entraînement commence avec la parole de monologue, passe par des données de dialogue mixte puis réelles, et utilise ensuite un post-entraînement DiffusionNFT avec des récompenses au niveau des phonèmes et de similarité entre locuteurs. Sur SwanBench-Speech, SwanVoice obtient des scores de richesse et de hiérarchie plus élevés que tous les modèles de base open source évalués, tant en monologue qu’en dialogue, bien que la précision du contenu reste la limitation principale. Des démonstrations audio sont disponibles à l’adresse https://swanaigc.github.io//#swanvoice.

English

Zero-shot text-to-speech (TTS) has improved substantially for single-speaker synthesis, yet expressive long-form multi-speaker dialogue remains difficult. A common workaround is to synthesize each turn with a monologue TTS model and stitch the outputs together. This adds inference cost and often breaks acoustic consistency, conversational coherence, and affective continuity across turns. Recent dialogue TTS systems have begun to address this setting, but they still struggle to keep expressive coherence, controllable speaker switching, and monologue quality at the same time. We present SwanData-Speech and SwanVoice. SwanData-Speech builds monologue and dialogue corpora from in-the-wild audio, using Swan Forced Aligner for pause-aware word-level alignment and RobustMegaTTS3 for pronunciation-hard cases. Built on these data, SwanVoice is a zero-shot TTS model for 1--4 speakers, combining a 25 Hz VAE, raw-text conditioning with pause-aware symbols and pinyin substitution, and a flow-matching DiT with speaker-turn conditioning. Training starts from monologue speech, moves through mixed and real dialogue data, and then uses DiffusionNFT post-training with phone-level and speaker-similarity rewards. On SwanBench-Speech, SwanVoice obtains higher richness and hierarchy scores than all evaluated open-source baselines in both monologue and dialogue settings, while content accuracy remains the main limitation. Audio demos are available at https://swanaigc.github.io//#swanvoice.