Quantification des interactions entre règles phonologiques et représentations du locuteur dans la synthèse de la parole avec accent
Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis
January 20, 2026
papers.authors: Thanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI
papers.abstract
De nombreuses langues parlées, y compris l'anglais, présentent une grande variété de dialectes et d'accents, ce qui rend le contrôle de l'accent une capacité importante pour les modèles flexibles de synthèse vocale. Les systèmes de synthèse actuels génèrent généralement une parole accentuée en se basant sur des représentations vectorielles de locuteurs associées à des accents spécifiques. Bien qu'efficace, cette approche offre une interprétabilité et une contrôlabilité limitées, car ces représentations codent également des traits tels que le timbre et l'émotion. Dans cette étude, nous analysons l'interaction entre les représentations du locuteur et des règles phonologiques motivées linguistiquement pour la synthèse de parole accentuée. En utilisant l'anglais américain et britannique comme étude de cas, nous mettons en œuvre des règles pour le flapping, la rhoticité et les correspondances vocaliques. Nous proposons le taux de décalage de phonème, une nouvelle métrique quantifiant la force avec laquelle les représentations préservent ou remplacent les transformations basées sur des règles. Les expériences montrent que combiner des règles avec des représentations produit des accents plus authentiques, tandis que les représentations peuvent atténuer ou écraser les règles, révélant un enchevêtrement entre l'accent et l'identité du locuteur. Nos résultats soulignent les règles comme un levier pour le contrôle de l'accent et un cadre pour évaluer le désenchevêtrement dans la génération de la parole.
English
Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.