DMOSpeech 2: Обучение с подкреплением для прогнозирования длительности в синтезе речи с оптимизацией метрик
DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis
July 20, 2025
Авторы: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI
Аннотация
Диффузионные системы синтеза речи (TTS) достигли значительного прогресса в задачах синтеза речи с нулевым обучением, однако оптимизация всех компонентов для улучшения перцептивных метрик остается сложной задачей. Предыдущие работы с системой DMOSpeech продемонстрировали прямую оптимизацию метрик для компонентов генерации речи, но прогнозирование длительности оставалось неоптимизированным. В данной статье представлена система DMOSpeech 2, которая расширяет оптимизацию метрик на компонент прогнозирования длительности с использованием подхода обучения с подкреплением. Предложенная система реализует новую структуру политики длительности с использованием групповой оптимизации относительных предпочтений (GRPO), где в качестве сигналов вознаграждения используются сходство голоса и частота ошибок на уровне слов. Благодаря оптимизации этого ранее неоптимизированного компонента, DMOSpeech 2 создает более полный синтезирующий конвейер с оптимизацией метрик. Кроме того, в статье представлен метод учитель-управляемой выборки — гибридный подход, использующий модель-учитель для начальных шагов удаления шума перед переходом к модели-ученику, что значительно повышает разнообразие выходных данных при сохранении эффективности. Комплексные оценки демонстрируют превосходную производительность по всем метрикам по сравнению с предыдущими системами, при этом количество шагов выборки сокращается вдвое без ухудшения качества. Эти достижения представляют собой значительный шаг к созданию систем синтеза речи с оптимизацией метрик для нескольких компонентов. Аудиообразцы, код и предобученные модели доступны по адресу https://dmospeech2.github.io/.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in
zero-shot speech synthesis, yet optimizing all components for perceptual
metrics remains challenging. Prior work with DMOSpeech demonstrated direct
metric optimization for speech generation components, but duration prediction
remained unoptimized. This paper presents DMOSpeech 2, which extends metric
optimization to the duration predictor through a reinforcement learning
approach. The proposed system implements a novel duration policy framework
using group relative preference optimization (GRPO) with speaker similarity and
word error rate as reward signals. By optimizing this previously unoptimized
component, DMOSpeech 2 creates a more complete metric-optimized synthesis
pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid
approach leveraging a teacher model for initial denoising steps before
transitioning to the student model, significantly improving output diversity
while maintaining efficiency. Comprehensive evaluations demonstrate superior
performance across all metrics compared to previous systems, while reducing
sampling steps by half without quality degradation. These advances represent a
significant step toward speech synthesis systems with metric optimization
across multiple components. The audio samples, code and pre-trained models are
available at https://dmospeech2.github.io/.