SwanVoice: Ausdrucksstarke Langform-Zero-Shot-Sprachsynthese sowohl für Monolog als auch Dialog

Zusammenfassung

Zero-Shot-Text-to-Speech (TTS) hat sich für die Einzelsprecher-Synthese erheblich verbessert, dennoch bleibt der ausdrucksstarke, mehrsprecherige Langformdialog schwierig. Ein üblicher Ansatz besteht darin, jede Sprecherrunde mit einem Monolog-TTS-Modell zu synthetisieren und die Ausgaben zusammenzufügen. Dies erhöht die Inferenzkosten und beeinträchtigt häufig die akustische Konsistenz, die Gesprächskohärenz und die affektive Kontinuität über die Runden hinweg. Neuere Dialog-TTS-Systeme haben begonnen, sich mit diesem Szenario zu befassen, aber sie haben weiterhin Schwierigkeiten, gleichzeitig ausdrucksstarke Kohärenz, kontrollierbaren Sprecherwechsel und Monologqualität zu gewährleisten. Wir stellen SwanData-Speech und SwanVoice vor. SwanData-Speech erstellt Monolog- und Dialogkorpora aus realen Audioaufnahmen, unter Verwendung von Swan Forced Aligner für pausenbewusste wortweise Ausrichtung und RobustMegaTTS3 für schwer auszusprechende Fälle. Basierend auf diesen Daten ist SwanVoice ein Zero-Shot-TTS-Modell für 1–4 Sprecher, das einen 25-Hz-VAE, Rohtext-Conditioning mit pausenbewussten Symbolen und Pinyin-Ersetzung sowie einen Flow-Matching-DiT mit Sprecherwechsel-Conditioning kombiniert. Das Training beginnt mit Monologsprache, durchläuft gemischte und echte Dialogdaten und verwendet anschließend DiffusionNFT-Post-Training mit phonem- und sprecherähnlichkeitsbasierten Belohnungen. Auf SwanBench-Speech erzielt SwanVoice in sowohl Monolog- als auch Dialogszenarien höhere Reichhaltigkeits- und Hierarchiebewertungen als alle evaluierten Open-Source-Baselines, wobei die Inhaltsgenauigkeit die Hauptbeschränkung bleibt. Audiodemos sind unter https://swanaigc.github.io//#swanvoice verfügbar.

English

Zero-shot text-to-speech (TTS) has improved substantially for single-speaker synthesis, yet expressive long-form multi-speaker dialogue remains difficult. A common workaround is to synthesize each turn with a monologue TTS model and stitch the outputs together. This adds inference cost and often breaks acoustic consistency, conversational coherence, and affective continuity across turns. Recent dialogue TTS systems have begun to address this setting, but they still struggle to keep expressive coherence, controllable speaker switching, and monologue quality at the same time. We present SwanData-Speech and SwanVoice. SwanData-Speech builds monologue and dialogue corpora from in-the-wild audio, using Swan Forced Aligner for pause-aware word-level alignment and RobustMegaTTS3 for pronunciation-hard cases. Built on these data, SwanVoice is a zero-shot TTS model for 1--4 speakers, combining a 25 Hz VAE, raw-text conditioning with pause-aware symbols and pinyin substitution, and a flow-matching DiT with speaker-turn conditioning. Training starts from monologue speech, moves through mixed and real dialogue data, and then uses DiffusionNFT post-training with phone-level and speaker-similarity rewards. On SwanBench-Speech, SwanVoice obtains higher richness and hierarchy scores than all evaluated open-source baselines in both monologue and dialogue settings, while content accuracy remains the main limitation. Audio demos are available at https://swanaigc.github.io//#swanvoice.