Quantificazione delle Interazioni tra Regole Fonologiche e Embedding del Parlante nella Sintesi del Linguaggio Accentato

Abstract

Molte lingue parlate, inclusa l'inglese, presentano un'ampia variazione di dialetti e accenti, rendendo il controllo dell'accento un'abilità importante per modelli flessibili di sintesi vocale (TTS). I sistemi TTS attuali generano tipicamente un parlato accentato condizionando l'output su embedding del parlatore associati ad accenti specifici. Sebbene efficace, questo approccio offre una limitata interpretabilità e controllabilità, poiché gli embedding codificano anche tratti come il timbro e l'emozione. In questo studio, analizziamo l'interazione tra gli embedding del parlatore e regole fonologicamente motivate nella sintesi del parlato accentato. Utilizzando l'inglese americano e britannico come caso di studio, implementiamo regole per il flapping, la rotacità e le corrispondenze vocaliche. Proponiamo il tasso di scostamento fonemico (PSR), una nuova metrica che quantifica quanto fortemente gli embedding preservano o sovrascrivono trasformazioni basate su regole. Gli esperimenti mostrano che combinare le regole con gli embedding produce accenti più autentici, mentre gli embedding possono attenuare o sovrascrivere le regole, rivelando un entanglement tra accento e identità del parlatore. I nostri risultati evidenziano le regole come una leva per il controllo dell'accento e un quadro per valutare il disaccoppiamento nella generazione del parlato.

English

Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.

Quantificazione delle Interazioni tra Regole Fonologiche e Embedding del Parlante nella Sintesi del Linguaggio Accentato

Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

Abstract

Support