SwanVoice: выразительный длинноформатный Zero-Shot синтез речи для монолога и диалога

Аннотация

Zero-shot TTS (текст-в-речь без обучения на целевых голосах) существенно улучшился для одноголосного синтеза, однако выразительная многоголосая диалоговая речь в длинных форматах остаётся сложной задачей. Распространённый обходной путь — синтезировать каждую реплику моделью монологической TTS и склеивать результаты. Это увеличивает вычислительные затраты при инференсе и часто нарушает акустическую согласованность, связность диалога и эмоциональную непрерывность между репликами. Недавние системы диалогового TTS начали решать эту задачу, но им всё ещё трудно одновременно поддерживать выразительную связность, управляемое переключение говорящих и качество монолога. Мы представляем SwanData-Speech и SwanVoice. SwanData-Speech строит корпуса монологов и диалогов на основе аудиозаписей «из дикой природы», используя Swan Forced Aligner для пословного выравнивания с учётом пауз и RobustMegaTTS3 для сложных случаев произношения. Основанная на этих данных, SwanVoice — это модель zero-shot TTS для 1–4 говорящих, объединяющая VAE с частотой 25 Гц, кондиционирование на сыром тексте с символами, учитывающими паузы, и заменой на пиньинь, а также DiT с согласованием потоков и кондиционированием по репликам говорящих. Обучение начинается с монологической речи, затем переходит к смешанным данным и реальным диалогам, после чего применяется пост-обучение с помощью DiffusionNFT с вознаграждениями на уровне фонем и сходства голосов. На SwanBench-Speech SwanVoice получает более высокие показатели богатства и иерархичности, чем все оценённые открытые базовые модели как в монологическом, так и в диалоговом режимах, при этом точность содержания остаётся основным ограничением. Аудиодемонстрации доступны по адресу https://swanaigc.github.io//#swanvoice.

English

Zero-shot text-to-speech (TTS) has improved substantially for single-speaker synthesis, yet expressive long-form multi-speaker dialogue remains difficult. A common workaround is to synthesize each turn with a monologue TTS model and stitch the outputs together. This adds inference cost and often breaks acoustic consistency, conversational coherence, and affective continuity across turns. Recent dialogue TTS systems have begun to address this setting, but they still struggle to keep expressive coherence, controllable speaker switching, and monologue quality at the same time. We present SwanData-Speech and SwanVoice. SwanData-Speech builds monologue and dialogue corpora from in-the-wild audio, using Swan Forced Aligner for pause-aware word-level alignment and RobustMegaTTS3 for pronunciation-hard cases. Built on these data, SwanVoice is a zero-shot TTS model for 1--4 speakers, combining a 25 Hz VAE, raw-text conditioning with pause-aware symbols and pinyin substitution, and a flow-matching DiT with speaker-turn conditioning. Training starts from monologue speech, moves through mixed and real dialogue data, and then uses DiffusionNFT post-training with phone-level and speaker-similarity rewards. On SwanBench-Speech, SwanVoice obtains higher richness and hierarchy scores than all evaluated open-source baselines in both monologue and dialogue settings, while content accuracy remains the main limitation. Audio demos are available at https://swanaigc.github.io//#swanvoice.