ChatPaper.aiChatPaper

DMOSpeech 2: Aprendizaje por Refuerzo para la Predicción de Duración en Síntesis de Voz Optimizada por Métricas

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

July 20, 2025
Autores: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI

Resumen

Los sistemas de conversión de texto a voz (TTS) basados en difusión han logrado avances notables en la síntesis de voz en modo zero-shot, aunque optimizar todos los componentes para métricas perceptuales sigue siendo un desafío. Trabajos previos con DMOSpeech demostraron la optimización directa de métricas para los componentes de generación de voz, pero la predicción de duración permaneció sin optimizar. Este artículo presenta DMOSpeech 2, que extiende la optimización de métricas al predictor de duración mediante un enfoque de aprendizaje por refuerzo. El sistema propuesto implementa un marco novedoso de política de duración utilizando optimización de preferencias relativas por grupos (GRPO) con similitud del hablante y tasa de error de palabras como señales de recompensa. Al optimizar este componente previamente no optimizado, DMOSpeech 2 crea una canalización de síntesis más completa con optimización de métricas. Además, este artículo introduce el muestreo guiado por un modelo maestro, un enfoque híbrido que aprovecha un modelo maestro para los pasos iniciales de eliminación de ruido antes de transicionar al modelo estudiante, mejorando significativamente la diversidad de la salida mientras mantiene la eficiencia. Evaluaciones exhaustivas demuestran un rendimiento superior en todas las métricas en comparación con sistemas anteriores, reduciendo los pasos de muestreo a la mitad sin degradación de calidad. Estos avances representan un paso significativo hacia sistemas de síntesis de voz con optimización de métricas en múltiples componentes. Las muestras de audio, el código y los modelos preentrenados están disponibles en https://dmospeech2.github.io/.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in zero-shot speech synthesis, yet optimizing all components for perceptual metrics remains challenging. Prior work with DMOSpeech demonstrated direct metric optimization for speech generation components, but duration prediction remained unoptimized. This paper presents DMOSpeech 2, which extends metric optimization to the duration predictor through a reinforcement learning approach. The proposed system implements a novel duration policy framework using group relative preference optimization (GRPO) with speaker similarity and word error rate as reward signals. By optimizing this previously unoptimized component, DMOSpeech 2 creates a more complete metric-optimized synthesis pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid approach leveraging a teacher model for initial denoising steps before transitioning to the student model, significantly improving output diversity while maintaining efficiency. Comprehensive evaluations demonstrate superior performance across all metrics compared to previous systems, while reducing sampling steps by half without quality degradation. These advances represent a significant step toward speech synthesis systems with metric optimization across multiple components. The audio samples, code and pre-trained models are available at https://dmospeech2.github.io/.
PDF72July 25, 2025