ChatPaper.aiChatPaper

DMOSpeech 2: Aprendizado por Reforço para Previsão de Duração em Síntese de Fala Otimizada por Métricas

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

July 20, 2025
Autores: Yinghao Aaron Li, Xilin Jiang, Fei Tao, Cheng Niu, Kaifeng Xu, Juntong Song, Nima Mesgarani
cs.AI

Resumo

Sistemas de texto para fala (TTS) baseados em difusão têm feito progressos notáveis na síntese de fala zero-shot, mas otimizar todos os componentes para métricas perceptuais continua sendo um desafio. Trabalhos anteriores com o DMOSpeech demonstraram a otimização direta de métricas para componentes de geração de fala, mas a previsão de duração permaneceu não otimizada. Este artigo apresenta o DMOSpeech 2, que estende a otimização de métricas para o preditor de duração por meio de uma abordagem de aprendizado por reforço. O sistema proposto implementa uma nova estrutura de política de duração usando otimização de preferência relativa em grupo (GRPO) com similaridade do locutor e taxa de erro de palavras como sinais de recompensa. Ao otimizar esse componente anteriormente não otimizado, o DMOSpeech 2 cria um pipeline de síntese mais completo com otimização de métricas. Além disso, este artigo introduz a amostragem guiada por professor, uma abordagem híbrida que aproveita um modelo professor para os passos iniciais de remoção de ruído antes de transicionar para o modelo aluno, melhorando significativamente a diversidade da saída enquanto mantém a eficiência. Avaliações abrangentes demonstram desempenho superior em todas as métricas em comparação com sistemas anteriores, enquanto reduz os passos de amostragem pela metade sem degradação de qualidade. Esses avanços representam um passo significativo em direção a sistemas de síntese de fala com otimização de métricas em múltiplos componentes. As amostras de áudio, código e modelos pré-treinados estão disponíveis em https://dmospeech2.github.io/.
English
Diffusion-based text-to-speech (TTS) systems have made remarkable progress in zero-shot speech synthesis, yet optimizing all components for perceptual metrics remains challenging. Prior work with DMOSpeech demonstrated direct metric optimization for speech generation components, but duration prediction remained unoptimized. This paper presents DMOSpeech 2, which extends metric optimization to the duration predictor through a reinforcement learning approach. The proposed system implements a novel duration policy framework using group relative preference optimization (GRPO) with speaker similarity and word error rate as reward signals. By optimizing this previously unoptimized component, DMOSpeech 2 creates a more complete metric-optimized synthesis pipeline. Additionally, this paper introduces teacher-guided sampling, a hybrid approach leveraging a teacher model for initial denoising steps before transitioning to the student model, significantly improving output diversity while maintaining efficiency. Comprehensive evaluations demonstrate superior performance across all metrics compared to previous systems, while reducing sampling steps by half without quality degradation. These advances represent a significant step toward speech synthesis systems with metric optimization across multiple components. The audio samples, code and pre-trained models are available at https://dmospeech2.github.io/.
PDF72July 25, 2025