DMOSpeech 2: Apprendimento per Rinforzo per la Previsione della Durata nella Sintesi Vocale Ottimizzata Metrica
DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis
July 20, 2025
Autori: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI
Abstract
I sistemi di sintesi vocale (TTS) basati su diffusione hanno compiuto progressi significativi nella sintesi vocale zero-shot, ma ottimizzare tutti i componenti per le metriche percettive rimane una sfida. Il lavoro precedente con DMOSpeech ha dimostrato l'ottimizzazione diretta delle metriche per i componenti di generazione del parlato, ma la previsione della durata è rimasta non ottimizzata. Questo articolo presenta DMOSpeech 2, che estende l'ottimizzazione delle metriche al predittore della durata attraverso un approccio di apprendimento per rinforzo. Il sistema proposto implementa un nuovo framework di politica della durata utilizzando l'ottimizzazione delle preferenze relative di gruppo (GRPO) con la somiglianza del parlante e il tasso di errore sulle parole come segnali di ricompensa. Ottimizzando questo componente precedentemente non ottimizzato, DMOSpeech 2 crea una pipeline di sintesi più completa e ottimizzata per le metriche. Inoltre, questo articolo introduce il campionamento guidato da insegnante, un approccio ibrido che sfrutta un modello insegnante per i passaggi iniziali di denoising prima di passare al modello studente, migliorando significativamente la diversità dell'output mantenendo l'efficienza. Valutazioni complete dimostrano prestazioni superiori in tutte le metriche rispetto ai sistemi precedenti, riducendo i passaggi di campionamento della metà senza degradazione della qualità. Questi progressi rappresentano un passo significativo verso sistemi di sintesi vocale con ottimizzazione delle metriche su più componenti. I campioni audio, il codice e i modelli pre-addestrati sono disponibili su https://dmospeech2.github.io/.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in
zero-shot speech synthesis, yet optimizing all components for perceptual
metrics remains challenging. Prior work with DMOSpeech demonstrated direct
metric optimization for speech generation components, but duration prediction
remained unoptimized. This paper presents DMOSpeech 2, which extends metric
optimization to the duration predictor through a reinforcement learning
approach. The proposed system implements a novel duration policy framework
using group relative preference optimization (GRPO) with speaker similarity and
word error rate as reward signals. By optimizing this previously unoptimized
component, DMOSpeech 2 creates a more complete metric-optimized synthesis
pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid
approach leveraging a teacher model for initial denoising steps before
transitioning to the student model, significantly improving output diversity
while maintaining efficiency. Comprehensive evaluations demonstrate superior
performance across all metrics compared to previous systems, while reducing
sampling steps by half without quality degradation. These advances represent a
significant step toward speech synthesis systems with metric optimization
across multiple components. The audio samples, code and pre-trained models are
available at https://dmospeech2.github.io/.