DMOSpeech 2: 메트릭 최적화 음성 합성을 위한 지속 시간 예측을 위한 강화 학습
DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis
July 20, 2025
저자: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI
초록
확산 기반 텍스트-음성 변환(TTS) 시스템은 제로샷 음성 합성에서 놀라운 진전을 이루었지만, 모든 구성 요소를 지각적 지표에 최적화하는 것은 여전히 어려운 과제로 남아 있습니다. 이전 연구인 DMOSpeech는 음성 생성 구성 요소에 대한 직접적인 지표 최적화를 보여주었지만, 지속 시간 예측은 최적화되지 않은 상태로 남아 있었습니다. 본 논문은 강화 학습 접근법을 통해 지속 시간 예측기에까지 지표 최적화를 확장한 DMOSpeech 2를 소개합니다. 제안된 시스템은 화자 유사성과 단어 오류율을 보상 신호로 사용한 그룹 상대 선호 최적화(GRPO)를 기반으로 한 새로운 지속 시간 정책 프레임워크를 구현합니다. 이전에 최적화되지 않았던 이 구성 요소를 최적화함으로써, DMOSpeech 2는 더 완전한 지표 최적화 합성 파이프라인을 구축합니다. 또한, 본 논문은 교사 모델을 활용하여 초기 노이즈 제거 단계를 수행한 후 학생 모델로 전환하는 하이브리드 접근법인 교사 지도 샘플링을 도입하여, 효율성을 유지하면서 출력 다양성을 크게 향상시킵니다. 포괄적인 평가 결과, 이전 시스템 대비 모든 지표에서 우수한 성능을 보이면서도 샘플링 단계를 절반으로 줄이고도 품질 저하 없이 유지함을 입증했습니다. 이러한 발전은 여러 구성 요소에 걸친 지표 최적화를 갖춘 음성 합성 시스템으로 나아가는 중요한 단계를 나타냅니다. 오디오 샘플, 코드 및 사전 학습된 모델은 https://dmospeech2.github.io/에서 확인할 수 있습니다.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in
zero-shot speech synthesis, yet optimizing all components for perceptual
metrics remains challenging. Prior work with DMOSpeech demonstrated direct
metric optimization for speech generation components, but duration prediction
remained unoptimized. This paper presents DMOSpeech 2, which extends metric
optimization to the duration predictor through a reinforcement learning
approach. The proposed system implements a novel duration policy framework
using group relative preference optimization (GRPO) with speaker similarity and
word error rate as reward signals. By optimizing this previously unoptimized
component, DMOSpeech 2 creates a more complete metric-optimized synthesis
pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid
approach leveraging a teacher model for initial denoising steps before
transitioning to the student model, significantly improving output diversity
while maintaining efficiency. Comprehensive evaluations demonstrate superior
performance across all metrics compared to previous systems, while reducing
sampling steps by half without quality degradation. These advances represent a
significant step toward speech synthesis systems with metric optimization
across multiple components. The audio samples, code and pre-trained models are
available at https://dmospeech2.github.io/.