DMOSpeech 2 : Apprentissage par renforcement pour la prédiction de durée dans la synthèse vocale optimisée métrique
DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis
July 20, 2025
papers.authors: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI
papers.abstract
Les systèmes de synthèse vocale (TTS) basés sur la diffusion ont réalisé des progrès remarquables dans la synthèse vocale en zero-shot, mais l'optimisation de tous les composants pour les métriques perceptuelles reste un défi. Les travaux antérieurs avec DMOSpeech ont démontré une optimisation directe des métriques pour les composants de génération de la parole, mais la prédiction de la durée est restée non optimisée. Cet article présente DMOSpeech 2, qui étend l'optimisation des métriques au prédicteur de durée grâce à une approche d'apprentissage par renforcement. Le système proposé met en œuvre un nouveau cadre de politique de durée utilisant l'optimisation des préférences relatives par groupe (GRPO) avec la similarité du locuteur et le taux d'erreur sur les mots comme signaux de récompense. En optimisant ce composant précédemment non optimisé, DMOSpeech 2 crée un pipeline de synthèse plus complet et optimisé pour les métriques. De plus, cet article introduit l'échantillonnage guidé par un enseignant, une approche hybride qui exploite un modèle enseignant pour les étapes initiales de débruitage avant de passer au modèle étudiant, améliorant significativement la diversité des sorties tout en maintenant l'efficacité. Des évaluations approfondies démontrent une performance supérieure sur toutes les métriques par rapport aux systèmes précédents, tout en réduisant de moitié les étapes d'échantillonnage sans dégradation de la qualité. Ces avancées représentent une étape significative vers des systèmes de synthèse vocale avec une optimisation des métriques sur plusieurs composants. Les échantillons audio, le code et les modèles pré-entraînés sont disponibles à l'adresse https://dmospeech2.github.io/.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in
zero-shot speech synthesis, yet optimizing all components for perceptual
metrics remains challenging. Prior work with DMOSpeech demonstrated direct
metric optimization for speech generation components, but duration prediction
remained unoptimized. This paper presents DMOSpeech 2, which extends metric
optimization to the duration predictor through a reinforcement learning
approach. The proposed system implements a novel duration policy framework
using group relative preference optimization (GRPO) with speaker similarity and
word error rate as reward signals. By optimizing this previously unoptimized
component, DMOSpeech 2 creates a more complete metric-optimized synthesis
pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid
approach leveraging a teacher model for initial denoising steps before
transitioning to the student model, significantly improving output diversity
while maintaining efficiency. Comprehensive evaluations demonstrate superior
performance across all metrics compared to previous systems, while reducing
sampling steps by half without quality degradation. These advances represent a
significant step toward speech synthesis systems with metric optimization
across multiple components. The audio samples, code and pre-trained models are
available at https://dmospeech2.github.io/.