ChatPaper.aiChatPaper

DMOSpeech 2 : Apprentissage par renforcement pour la prédiction de durée dans la synthèse vocale optimisée métrique

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

July 20, 2025
papers.authors: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI

papers.abstract

Les systèmes de synthèse vocale (TTS) basés sur la diffusion ont réalisé des progrès remarquables dans la synthèse vocale en zero-shot, mais l'optimisation de tous les composants pour les métriques perceptuelles reste un défi. Les travaux antérieurs avec DMOSpeech ont démontré une optimisation directe des métriques pour les composants de génération de la parole, mais la prédiction de la durée est restée non optimisée. Cet article présente DMOSpeech 2, qui étend l'optimisation des métriques au prédicteur de durée grâce à une approche d'apprentissage par renforcement. Le système proposé met en œuvre un nouveau cadre de politique de durée utilisant l'optimisation des préférences relatives par groupe (GRPO) avec la similarité du locuteur et le taux d'erreur sur les mots comme signaux de récompense. En optimisant ce composant précédemment non optimisé, DMOSpeech 2 crée un pipeline de synthèse plus complet et optimisé pour les métriques. De plus, cet article introduit l'échantillonnage guidé par un enseignant, une approche hybride qui exploite un modèle enseignant pour les étapes initiales de débruitage avant de passer au modèle étudiant, améliorant significativement la diversité des sorties tout en maintenant l'efficacité. Des évaluations approfondies démontrent une performance supérieure sur toutes les métriques par rapport aux systèmes précédents, tout en réduisant de moitié les étapes d'échantillonnage sans dégradation de la qualité. Ces avancées représentent une étape significative vers des systèmes de synthèse vocale avec une optimisation des métriques sur plusieurs composants. Les échantillons audio, le code et les modèles pré-entraînés sont disponibles à l'adresse https://dmospeech2.github.io/.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in zero-shot speech synthesis, yet optimizing all components for perceptual metrics remains challenging. Prior work with DMOSpeech demonstrated direct metric optimization for speech generation components, but duration prediction remained unoptimized. This paper presents DMOSpeech 2, which extends metric optimization to the duration predictor through a reinforcement learning approach. The proposed system implements a novel duration policy framework using group relative preference optimization (GRPO) with speaker similarity and word error rate as reward signals. By optimizing this previously unoptimized component, DMOSpeech 2 creates a more complete metric-optimized synthesis pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid approach leveraging a teacher model for initial denoising steps before transitioning to the student model, significantly improving output diversity while maintaining efficiency. Comprehensive evaluations demonstrate superior performance across all metrics compared to previous systems, while reducing sampling steps by half without quality degradation. These advances represent a significant step toward speech synthesis systems with metric optimization across multiple components. The audio samples, code and pre-trained models are available at https://dmospeech2.github.io/.
PDF72July 25, 2025