Kwantificering van fonologische regelinteracties in sprekerembeddingen voor accentesprachssynthese

Samenvatting

Veel gesproken talen, waaronder het Engels, vertonen een grote verscheidenheid aan dialecten en accenten, waardoor accentcontrole een belangrijke capaciteit is voor flexibele tekst-naar-spraakmodellen (TTS). Huidige TTS-systemen genereren doorgaans geaccentueerde spraak door conditionering op spreker-embeddings die geassocieerd zijn met specifieke accenten. Hoewel effectief, biedt deze aanpak beperkte interpreteerbaarheid en controleerbaarheid, aangezien embeddings ook eigenschappen zoals timbre en emotie coderen. In deze studie analyseren we de interactie tussen spreker-embeddings en linguïstisch gemotiveerde fonologische regels bij de synthese van geaccentueerde spraak. Met Amerikaans en Brits Engels als casestudy implementeren we regels voor flapping, rhoticiteit en klinker-correspondenties. We introduceren de *phoneme shift rate* (PSR), een nieuwe maatstaf die kwantificeert hoe sterk embeddings op regels gebaseerde transformaties behouden of overschrijven. Experimenten tonen aan dat het combineren van regels met embeddings authentiekere accenten oplevert, terwijl embeddings regels kunnen verzwakken of overschrijven, wat een verstrengeling tussen accent en sprekersidentiteit onthult. Onze bevindingen benadrukken regels als een hefboom voor accentcontrole en een raamwerk voor het evalueren van ontvlechting in spraakgeneratie.

English

Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.

Kwantificering van fonologische regelinteracties in sprekerembeddingen voor accentesprachssynthese

Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

Samenvatting

Support