ChatPaper.aiChatPaper

Cuantificación de las Interacciones entre las Reglas Fonológicas y las Incrustaciones del Hablante en la Síntesis de Voz con Acento

Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

January 20, 2026
Autores: Thanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI

Resumen

Muchos idiomas hablados, incluido el inglés, presentan una amplia variación en dialectos y acentos, lo que convierte el control del acento en una capacidad importante para los modelos flexibles de texto a voz (TTS). Los sistemas TTS actuales generalmente generan habla con acento condicionando las incrustaciones del hablante asociadas a acentos específicos. Aunque son efectivos, este enfoque ofrece una interpretabilidad y controlabilidad limitadas, ya que las incrustaciones también codifican rasgos como el timbre y la emoción. En este estudio, analizamos la interacción entre las incrustaciones del hablante y las reglas fonológicas de base lingüística en la síntesis de habla acentuada. Utilizando el inglés estadounidense y británico como caso de estudio, implementamos reglas para el *flapping*, la rotacidad y las correspondencias vocálicas. Proponemos la tasa de desplazamiento de fonemas (PSR), una nueva métrica que cuantifica qué tan fuertemente las incrustaciones preservan o anulan las transformaciones basadas en reglas. Los experimentos muestran que combinar reglas con incrustaciones produce acentos más auténticos, mientras que las incrustaciones pueden atenuar o sobrescribir las reglas, revelando un entrelazamiento entre el acento y la identidad del hablante. Nuestros hallazgos destacan las reglas como una palanca para el control del acento y un marco para evaluar el desentrelazamiento en la generación de habla.
English
Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.
PDF51January 23, 2026