억양 음성 합성에서 화자 임베딩과 음운 규칙 상호작용의 정량화
Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis
January 20, 2026
저자: Thanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI
초록
영어를 포함한 많은 구어 언어는 방언과 액센트에서 광범위한 변이를 보이므로, 액센트 제어는 유연한 텍스트-투-스피치(TTS) 모델의 중요한 능력입니다. 현재 TTS 시스템은 일반적으로 특정 액센트와 연관된 화자 임베딩을 조건으로 하여 액센트가 포함된 음성을 생성합니다. 이 방법은 효과적이지만, 임베딩이 음색이나 감정과 같은 특성도 함께 인코딩하기 때문에 해석 가능성과 제어 가능성이 제한적입니다. 본 연구에서는 액센트 음성 합성에서 화자 임베딩과 언어학적으로 동기를 부여한 음운 규칙 간의 상호작용을 분석합니다. 미국 영어와 영국 영어를 사례 연구로 사용하여 플래핑, rhoticity(R음화), 모음 대응 규칙을 구현합니다. 우리는 임베딩이 규칙 기반 변환을 보존하거나 재정의하는 강도를 정량화하는 새로운 지표인 음소 변환율(PSR)을 제안합니다. 실험 결과, 규칙과 임베딩을 결합하면 더욱 정확한 액센트를 생성할 수 있는 반면, 임베딩이 규칙을 약화시키거나 덮어쓸 수 있어 액센트와 화자 정체성 간의 얽힘을 보여줍니다. 우리의 연구 결과는 음성 생성에서 액센트 제어를 위한 수단으로서, 그리고 얽힘 해제 평가를 위한框架로서 규칙의 중요성을 부각시킵니다.
English
Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.