Количественная оценка взаимодействий фонологических правил в эмбеддингах дикторов при синтезе акцентированной речи

Аннотация

Многие разговорные языки, включая английский, демонстрируют значительные вариации диалектов и акцентов, что делает управление акцентом важной функцией для гибких моделей преобразования текста в речь (TTS). Современные TTS-системы обычно генерируют речь с акцентом, используя условие на основе эмбеддингов говорящего, связанных с конкретными акцентами. Хотя этот подход эффективен, он предлагает ограниченную интерпретируемость и управляемость, поскольку эмбеддинги также кодируют такие характеристики, как тембр и эмоции. В данном исследовании мы анализируем взаимодействие между эмбеддингами говорящего и лингвистически мотивированными фонологическими правилами в синтезе акцентированной речи. Используя американский и британский английский в качестве примера, мы реализуем правила, касающиеся флапинга, ротичности и соответствий гласных. Мы предлагаем показатель скорости фонемных сдвигов (Phoneme Shift Rate, PSR) — новую метрику, количественно оценивающую, насколько сильно эмбеддинги сохраняют или переопределяют основанные на правилах преобразования. Эксперименты показывают, что комбинация правил с эмбеддингами позволяет получать более аутентичные акценты, в то время как эмбеддинги могут ослаблять или перезаписывать правила, выявляя переплетение между акцентом и идентичностью говорящего. Наши результаты подчеркивают роль правил как инструмента управления акцентом и предлагают основу для оценки разделения факторов в генерации речи.

English

Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.

Количественная оценка взаимодействий фонологических правил в эмбеддингах дикторов при синтезе акцентированной речи

Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

Аннотация

Support