ChatPaper.aiChatPaper

DMOSpeech 2: Reinforcement Learning zur Dauerprognose in der metrisch optimierten Sprachsynthese

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

July 20, 2025
papers.authors: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI

papers.abstract

Diffusionsbasierte Text-zu-Sprache (TTS)-Systeme haben bemerkenswerte Fortschritte in der Null-Shot-Sprachsynthese erzielt, doch die Optimierung aller Komponenten für wahrnehmungsbasierte Metriken bleibt eine Herausforderung. Frühere Arbeiten mit DMOSpeech demonstrierten die direkte Metrikoptimierung für Sprachgenerierungskomponenten, doch die Dauerprognose blieb unoptimiert. Dieses Papier stellt DMOSpeech 2 vor, das die Metrikoptimierung auf den Dauerprognosealgorithmus durch einen Reinforcement-Learning-Ansatz erweitert. Das vorgeschlagene System implementiert ein neuartiges Dauerprognose-Framework unter Verwendung von Group Relative Preference Optimization (GRPO) mit Sprecherähnlichkeit und Wortfehlerrate als Belohnungssignale. Durch die Optimierung dieser bisher unoptimierten Komponente schafft DMOSpeech 2 eine vollständigere metrikoptimierte Synthesepipeline. Zusätzlich führt dieses Papier das leitergestützte Sampling ein, einen hybriden Ansatz, der ein Lehrermodell für die ersten Entrauschungsschritte nutzt, bevor auf das Schülermodell gewechselt wird, was die Ausgabediversität erheblich verbessert, während die Effizienz erhalten bleibt. Umfassende Bewertungen zeigen eine überlegene Leistung in allen Metriken im Vergleich zu früheren Systemen, während die Sampling-Schritte halbiert werden, ohne Qualitätseinbußen. Diese Fortschritte stellen einen bedeutenden Schritt hin zu Sprachsynthesesystemen mit Metrikoptimierung über mehrere Komponenten dar. Die Audiobeispiele, der Code und die vortrainierten Modelle sind unter https://dmospeech2.github.io/ verfügbar.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in zero-shot speech synthesis, yet optimizing all components for perceptual metrics remains challenging. Prior work with DMOSpeech demonstrated direct metric optimization for speech generation components, but duration prediction remained unoptimized. This paper presents DMOSpeech 2, which extends metric optimization to the duration predictor through a reinforcement learning approach. The proposed system implements a novel duration policy framework using group relative preference optimization (GRPO) with speaker similarity and word error rate as reward signals. By optimizing this previously unoptimized component, DMOSpeech 2 creates a more complete metric-optimized synthesis pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid approach leveraging a teacher model for initial denoising steps before transitioning to the student model, significantly improving output diversity while maintaining efficiency. Comprehensive evaluations demonstrate superior performance across all metrics compared to previous systems, while reducing sampling steps by half without quality degradation. These advances represent a significant step toward speech synthesis systems with metric optimization across multiple components. The audio samples, code and pre-trained models are available at https://dmospeech2.github.io/.
PDF72July 25, 2025