DMOSpeech 2: Обучение с подкреплением для прогнозирования длительности в синтезе речи с оптимизацией метрик

Аннотация

Диффузионные системы синтеза речи (TTS) достигли значительного прогресса в задачах синтеза речи с нулевым обучением, однако оптимизация всех компонентов для улучшения перцептивных метрик остается сложной задачей. Предыдущие работы с системой DMOSpeech продемонстрировали прямую оптимизацию метрик для компонентов генерации речи, но прогнозирование длительности оставалось неоптимизированным. В данной статье представлена система DMOSpeech 2, которая расширяет оптимизацию метрик на компонент прогнозирования длительности с использованием подхода обучения с подкреплением. Предложенная система реализует новую структуру политики длительности с использованием групповой оптимизации относительных предпочтений (GRPO), где в качестве сигналов вознаграждения используются сходство голоса и частота ошибок на уровне слов. Благодаря оптимизации этого ранее неоптимизированного компонента, DMOSpeech 2 создает более полный синтезирующий конвейер с оптимизацией метрик. Кроме того, в статье представлен метод учитель-управляемой выборки — гибридный подход, использующий модель-учитель для начальных шагов удаления шума перед переходом к модели-ученику, что значительно повышает разнообразие выходных данных при сохранении эффективности. Комплексные оценки демонстрируют превосходную производительность по всем метрикам по сравнению с предыдущими системами, при этом количество шагов выборки сокращается вдвое без ухудшения качества. Эти достижения представляют собой значительный шаг к созданию систем синтеза речи с оптимизацией метрик для нескольких компонентов. Аудиообразцы, код и предобученные модели доступны по адресу https://dmospeech2.github.io/.

English

Diffusion-based text-to-speech (TTS) systems have made remarkable progress in zero-shot speech synthesis, yet optimizing all components for perceptual metrics remains challenging. Prior work with DMOSpeech demonstrated direct metric optimization for speech generation components, but duration prediction remained unoptimized. This paper presents DMOSpeech 2, which extends metric optimization to the duration predictor through a reinforcement learning approach. The proposed system implements a novel duration policy framework using group relative preference optimization (GRPO) with speaker similarity and word error rate as reward signals. By optimizing this previously unoptimized component, DMOSpeech 2 creates a more complete metric-optimized synthesis pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid approach leveraging a teacher model for initial denoising steps before transitioning to the student model, significantly improving output diversity while maintaining efficiency. Comprehensive evaluations demonstrate superior performance across all metrics compared to previous systems, while reducing sampling steps by half without quality degradation. These advances represent a significant step toward speech synthesis systems with metric optimization across multiple components. The audio samples, code and pre-trained models are available at https://dmospeech2.github.io/.