ChatPaper.aiChatPaper

Quantifizierung der Wechselwirkungen zwischen Sprecher-Embeddings und phonologischen Regeln in der akzentbehafteten Sprachsynthese

Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

January 20, 2026
papers.authors: Thanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI

papers.abstract

Viele gesprochene Sprachen, einschließlich des Englischen, weisen eine große Vielfalt an Dialekten und Akzenten auf, was die Akzentsteuerung zu einer wichtigen Fähigkeit für flexible Text-zu-Sprache-Modelle (TTS) macht. Aktuelle TTS-Systeme erzeugen akzentuierte Sprache typischerweise, indem sie Sprecher-Embeddings verwenden, die mit bestimmten Akzenten verknüpft sind. Obwohl wirksam, bietet dieser Ansatz nur begrenzte Interpretierbarkeit und Steuerbarkeit, da die Embeddings auch Merkmale wie Klangfarbe und Emotion kodieren. In dieser Studie analysieren wir die Wechselwirkung zwischen Sprecher-Embeddings und linguistisch motivierten phonologischen Regeln bei der Synthese von akzentuierter Sprache. Am Beispiel von amerikanischem und britischem Englisch implementieren wir Regeln für Flapping, Rhotizität und Vokalkorrespondenzen. Wir schlagen die Phonem-Shift-Rate (PSR) vor, eine neuartige Metrik, die quantifiziert, wie stark Embeddings regelbasierte Transformationen bewahren oder überschreiben. Experimente zeigen, dass die Kombination von Regeln mit Embeddings authentischere Akzente liefert, während Embeddings Regeln abschwächen oder überschreiben können, was eine Verflechtung von Akzent und Sprecheridentität offenbart. Unsere Ergebnisse unterstreichen Regeln als Hebel für die Akzentsteuerung und als Rahmen für die Bewertung von Entflechtung in der Sprachgenerierung.
English
Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.
PDF51January 23, 2026