SwanVoice: Síntesis de Voz Expresiva de Formato Largo y Zero-Shot para Monólogo y Diálogo

Resumen

La síntesis de voz de cero ejemplos (zero-shot TTS) ha mejorado sustancialmente para la generación con un solo hablante, pero el diálogo expresivo de múltiples hablantes en formato largo sigue siendo difícil. Una solución común es sintetizar cada turno con un modelo TTS de monólogo y unir las salidas. Esto añade coste de inferencia y a menudo rompe la consistencia acústica, la coherencia conversacional y la continuidad afectiva entre turnos. Los sistemas recientes de TTS para diálogo han comenzado a abordar este escenario, pero aún tienen dificultades para mantener simultáneamente la coherencia expresiva, el cambio controlable de hablante y la calidad del monólogo. Presentamos SwanData-Speech y SwanVoice. SwanData-Speech construye corpus de monólogo y diálogo a partir de audio extraído de la naturaleza, utilizando Swan Forced Aligner para una alineación a nivel de palabra consciente de pausas y RobustMegaTTS3 para casos de pronunciación difíciles. Basado en estos datos, SwanVoice es un modelo TTS de cero ejemplos para 1 a 4 hablantes, que combina un VAE de 25 Hz, condicionamiento de texto sin procesar con símbolos conscientes de pausas y sustitución de pinyin, y un DiT de ajuste de flujo con condicionamiento por turno de hablante. El entrenamiento comienza con habla de monólogo, avanza a través de datos de diálogo mixtos y reales, y luego utiliza el post-entrenamiento con DiffusionNFT con recompensas a nivel de fonema y de similitud de hablante. En SwanBench-Speech, SwanVoice obtiene puntuaciones más altas de riqueza y jerarquía que todos los modelos de referencia de código abierto evaluados tanto en entornos de monólogo como de diálogo, mientras que la precisión del contenido sigue siendo la principal limitación. Los demos de audio están disponibles en https://swanaigc.github.io//#swanvoice.

English

Zero-shot text-to-speech (TTS) has improved substantially for single-speaker synthesis, yet expressive long-form multi-speaker dialogue remains difficult. A common workaround is to synthesize each turn with a monologue TTS model and stitch the outputs together. This adds inference cost and often breaks acoustic consistency, conversational coherence, and affective continuity across turns. Recent dialogue TTS systems have begun to address this setting, but they still struggle to keep expressive coherence, controllable speaker switching, and monologue quality at the same time. We present SwanData-Speech and SwanVoice. SwanData-Speech builds monologue and dialogue corpora from in-the-wild audio, using Swan Forced Aligner for pause-aware word-level alignment and RobustMegaTTS3 for pronunciation-hard cases. Built on these data, SwanVoice is a zero-shot TTS model for 1--4 speakers, combining a 25 Hz VAE, raw-text conditioning with pause-aware symbols and pinyin substitution, and a flow-matching DiT with speaker-turn conditioning. Training starts from monologue speech, moves through mixed and real dialogue data, and then uses DiffusionNFT post-training with phone-level and speaker-similarity rewards. On SwanBench-Speech, SwanVoice obtains higher richness and hierarchy scores than all evaluated open-source baselines in both monologue and dialogue settings, while content accuracy remains the main limitation. Audio demos are available at https://swanaigc.github.io//#swanvoice.