Quantificação das Interações entre Regras Fonológicas e Incorporações de Locutor na Síntese de Fala com Sotaque

Resumo

Muitas línguas faladas, incluindo o inglês, apresentam grande variação em dialetos e sotaques, tornando o controle de sotaque uma capacidade importante para modelos flexíveis de síntese de fala (TTS). Os sistemas atuais de TTS normalmente geram fala com sotaque condicionando-se em embeddings de falante associados a sotaques específicos. Embora eficaz, essa abordagem oferece limitada interpretabilidade e controlabilidade, uma vez que os embeddings também codificam características como timbre e emoção. Neste estudo, analisamos a interação entre embeddings de falante e regras fonologicamente motivadas na síntese de fala com sotaque. Usando o inglês americano e britânico como estudo de caso, implementamos regras para flapping, rotacismo e correspondências vocálicas. Propomos a taxa de deslocamento de fonemas (PSR), uma nova métrica que quantifica o quanto os embeddings preservam ou substituem transformações baseadas em regras. Experimentos mostram que combinar regras com embeddings produz sotaques mais autênticos, enquanto os embeddings podem atenuar ou sobrescrever regras, revelando um entrelaçamento entre sotaque e identidade do falante. Nossos resultados destacam as regras como uma alavanca para controle de sotaque e uma estrutura para avaliar o desentrelaçamento na geração de fala.

English

Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.