DMOSpeech 2: Reinforcement Learning voor Duurvoorspelling in Metrisch Geoptimaliseerde Spraaksynthese
DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis
July 20, 2025
Auteurs: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI
Samenvatting
Diffusie-gebaseerde tekst-naar-spraak (TTS) systemen hebben opmerkelijke vooruitgang geboekt in zero-shot spraaksynthese, maar het optimaliseren van alle componenten voor perceptuele metrieken blijft een uitdaging. Eerder werk met DMOSpeech toonde directe metriekoptimalisatie voor spraakgeneratiecomponenten, maar de duurvoorspelling bleef ongeoptimaliseerd. Dit artikel presenteert DMOSpeech 2, dat metriekoptimalisatie uitbreidt naar de duurvoorspeller via een reinforcement learning-benadering. Het voorgestelde systeem implementeert een nieuw duurbeleidsraamwerk met groep-relatieve voorkeuroptimalisatie (GRPO) waarbij sprekersgelijkenis en woordfoutenpercentage als beloningssignalen worden gebruikt. Door deze voorheen ongeoptimaliseerde component te optimaliseren, creëert DMOSpeech 2 een completere metriek-geoptimaliseerde synthesepijplijn. Daarnaast introduceert dit artikel teacher-guided sampling, een hybride benadering die een leraarmodel gebruikt voor initiële denoising-stappen voordat wordt overgeschakeld naar het studentmodel, wat de uitvoerdiversiteit aanzienlijk verbetert terwijl de efficiëntie behouden blijft. Uitgebreide evaluaties tonen superieure prestaties aan op alle metrieken vergeleken met eerdere systemen, terwijl het aantal sampling-stappen wordt gehalveerd zonder kwaliteitsverlies. Deze vooruitgangen vertegenwoordigen een belangrijke stap richting spraaksynthesesystemen met metriekoptimalisatie over meerdere componenten. De audiovoorbeelden, code en vooraf getrainde modellen zijn beschikbaar op https://dmospeech2.github.io/.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in
zero-shot speech synthesis, yet optimizing all components for perceptual
metrics remains challenging. Prior work with DMOSpeech demonstrated direct
metric optimization for speech generation components, but duration prediction
remained unoptimized. This paper presents DMOSpeech 2, which extends metric
optimization to the duration predictor through a reinforcement learning
approach. The proposed system implements a novel duration policy framework
using group relative preference optimization (GRPO) with speaker similarity and
word error rate as reward signals. By optimizing this previously unoptimized
component, DMOSpeech 2 creates a more complete metric-optimized synthesis
pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid
approach leveraging a teacher model for initial denoising steps before
transitioning to the student model, significantly improving output diversity
while maintaining efficiency. Comprehensive evaluations demonstrate superior
performance across all metrics compared to previous systems, while reducing
sampling steps by half without quality degradation. These advances represent a
significant step toward speech synthesis systems with metric optimization
across multiple components. The audio samples, code and pre-trained models are
available at https://dmospeech2.github.io/.